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内 容 提 要 


本 书 采用 简洁 强大 的 Python 语言 ， 介 绍 了 网 络 数据 采集 ， 并 为 采集 新 式 网 络 中 的 各 种 数据 类 
型 提供 了 全 面 的 指导 。 第 一 部 分 重点 介绍 网 络 数据 采集 的 基本 原理 : 如 何 用 Python 从 网 络 服务 器 
































， 以 及 如 何以 自动 化 手段 与 网 站 进行 交互 。 第 二 部 





站 ， 自 动 化 处 理 ， 以 及 如 何 通过 更 多 的 方式 接 入 网 络 。 
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每 时 每 刻 ， 搜 索引 擎 和 网 站 都 在 采集 大 量 信 息 ， 非 原创 即 采集 。 采 集 信息 用 的 程序 一 般 被 
PRAWA (Web crawler)、 网 络 久 (Web scraper， 可 类 比 考 十 用 的 洛阳 铲 )、 网 络 蜂 
Wk (Web spider) ， 其 行为 一 般 是 先 “ 礁 ” 到 对 应 的 网 页 上 ， 再 把 需要 的 信息 “ 铲 ” 下 来 。 
O'Reilly 这 本 书 的 封面 图 案 是 一 只 穿山 甲 ， 图 灵 公 司 把 这 本 书 的 中 文 版 定名 为 “Python 网 
络 数据 采集 *。 当 我 们 看 完 这 本 书 的 时 候 ， 觉 得 网 络 数据 采集 程序 也 像 是 一 只 辛勤 采 蜜 的 
小 蜜蜂 ， 它 飞 到 花 (目标 网 页 ) E, 采集 花 粉 (需要 的 信息 )， 经 过 处 理 (数据 清洗 、 存 
储 ) 变 成 蜂蜜 (可 用 的 数据 )。 网 络 数据 采集 可 以 为 生活 加 点 儿 蜜 ， 亦 如 本 书 作者 所 说 ， 
“网 络 数据 采集 是 为 普通 大 众 所 喜 闻 乐 见 的 计算 机 巫 术 ”。 


网 络 数据 采集 大 有 所 为 。 在 大 数据 深入 人 心 的 时 代 ， 网 络 数 据 采集 作为 网 络 、 数 据 库 与 机 
器 学 习 等 领域 的 交汇 点 ， 已 经 成 为 满足 个 性 化 网 络 数据 需求 的 最 佳 实践 。 搜 索引 擎 可 以 满 
足 人 们 对 数据 的 共性 需求 ， 即 “我 来 了 ， 我 看 见 ”， 而 网 络 数据 采集 技术 可 以 进一步 精炼 
数据 ， 把 网 络 中 杂乱 无 章 的 数据 聚合 成 合理 规范 的 形式 ， 方 便 分 析 与 挖掘 ， 真 正 实 现 “ 我 
征服 "。 工 作 中 ， 你 可 能 经 常 为 找 数据 而 烦恼 ， 或 者 眼睁睁 看 着 眼前 的 几 百 页 数据 却 只 能 
长 恨 怀 尺 天 涯 ， 又 或 者 数据 杂乱 无 章 的 网 站 中 满 是 带 有 陷阱 的 表单 和 坑 侈 的 验证 码 ， 其 至 
需要 的 数据 都 在 网 页 版 的 PDF 和 网 络 图 片 中 。 而 作为 一 名 网 站 管理 员 ， 你 也 需要 了 解 常 用 
的 网 络 数 据 采 集 手 段 ， 以 及 常用 的 网 络 表单 安全 措施 ， 以 提高 网 站 访问 的 安全 性 ， 所 谓 道 
高 一 尺 ， 魔 高 一 丈 …… 念 清净 ， 烈 焰 成 怨 ， 一 念 觉 醒 ， 方 登 彼岸， 本 书 试 图 成 为 解决 这 
些 问 题 的 一 念 ， 让 你 茅 塞 顿 开 ， 船 登 彼岸 。 
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网 络 数据 采集 并 不 是 一 门 语言 的 独门 秘籍 ，Python、Java、PHP、C#、Go 等 语言 都 可 
以 讲 出 精彩 的 故事 。 有 人 说 编程 语言 就 是 宗教 ， 不 同 语言 的 设计 哲学 不 同 ， 行 为 方式 各 
异 ,“ 非 我 族 类 ， 其 心 必 异 ”， 但 本 着 美好 生活 、 快 乐 修行 的 初 表 ， 我 们 对 所 有 语言 都 时 刻 
保持 敬 睛 之 心 ， 尊 重信 仰 自 由 ， 努 力 做 好 自己 的 功课 。 对 爱好 Python ARH, AEE 
短 ，Python 当 歌 ! 简洁 轻松 的 语法 ， 开 箱 即 用 的 模块 ， 强 大 快乐 的 社区 ， 总 可 以 快速 构 
建 出 简单 高 效 的 解决 方案 。 使 用 Python 的 日 子 总 是 充满 快乐 的 ， 本 书 关 于 Python 网 络 数 





























据 采 集 的 故事 也 不 例外 。 网 络 数据 采集 涉及 多 个 领域 ， 内 容 包 罗 万 象 ， 因 此 本 书 覆 盖 的 主 
题 较 多 ， 涉 及 的 知识 面相 对 广阔 ， 书 中 介绍 的 Python 模块 有 urllib、BeautifulSoup、lxml、 
Scrapy, PdfMiner, Requests, Selenium, NLTK, Pillow, unittest, PySocks 等 ， 还 有 一 些 
知名 网 站 的 API, MySQL 数据 库 、OpenRefine 数据 分 析 工 具 、PhanthomJS 无 头 浏览 器 以 
及 Tor 代理 服务 器 等 内 容 。 每 行 到 一 处 ， 缘 是 风景 独 好 ， 而 且 作者 也 为 每 一 个 主题 提供 
了 深入 研究 的 参考 资料 。 不 过 ， 本 书 关于 多 进程 (multiprocessing)、 并 发 (concurrency), 
集群 (cluster) 等 高 性 能 采集 主题 着 墨 不 多 ， 更 加 关注 性 能 的 读者 ， 可 以 参考 其 他 关于 
Python 高 性 能 和 多 核 编程 的 书籍 。 总 之 ， 本 书 通俗 易 懂 ， 简 单 易 行 ， 有 编程 基础 的 同学 都 
可 以 阅读 。 不 会 Python ? 抽 一 市 课时 间 学 一 下 吧 。 


网 络 数据 采集 也 应 该 有 所 不 为 。 国 内 外 关于 网 络 数 据 保护 的 法 律 法 规 都 在 不 断 地 制定 与 完 
善 中 ， 本 书 作 者 在 书 中 介绍 了 美国 与 网 络 数据 采集 相关 的 法 律 与 典型 案例 ， 呼 吁 网 络 疏 虫 
严格 控制 网 络 数据 采集 的 速度 ， 降 低 被 采集 网 站 服务 器 的 负担 。 亚 意 消 耗 别 人 网 站 的 服务 
器 资源 ， 甚 至 拖 震 别人 网 站 是 一 件 不 道德 的 事情 。 众 所 周知 ， 这 已 经 不 仅仅 是 一 名 “吸烟 
害 健康 ”之 类 的 空洞 口号 ， 它 可 能 导致 更 严重 的 法 律 后 果 ， 且 行 且 珍 惜 ! 


语言 是 思想 的 解释 器 ， 书 籍 是 语言 的 载体 。 本 书 英文 原著 是 作者 用 英文 解释 器 为 自己 思想 
写 的 载体 ， 而 译本 是 译 者 根据 英文 原著 以 及 与 作者 的 交流 ， 用 简体 中 文 解释 器 为 作者 思想 
写 的 载体 。 读 者 拿 到 的 中 译本 ， 是 作者 思想 经 过 两 层 解释 器 转换 的 结果 ， 甚 目的 是 希望 帮 
助 中 文 读 者 消除 语言 障碍 ， 理 解 作者 的 思想 ， 与 作者 产生 共鸣 ， 一 起 面 对 作 者 曾经 遇 到 的 
问题 ， 共 同 探索 解决 问题 的 方法 ， 从 而 帮助 读者 提高 解决 问题 的 能 力 ， 增 强直 面 bug 的 信 
心 。bug 是 产品 生命 中 的 挑战 ， 好 产品 是 不 断面 对 bug 并 战胜 bug 的 结果 。 译 者 水 平 有 限 ， 
译文 bug 也 在 所 难免 ， 翻 译 有 不 到 之 处 ， 还 请 各 位 读者 批评 指正 ! 
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对 那些 没有 学 过 编程 的 人 来 说 ， 计 算 机 编程 看 着 就 像 变 魔术 。 如 果 编 程 是 魔术 (magic), 
那么 网 络 数据 采集 (Web scraping) 就 是 巫 术 (wizardry) ; 也 就 是 运用 “魔术 ”来 实现 精 
彩 实用 却 又 不 费 吹 灰 之 力 的 “壮举 ”。 














说 句 实话 ， 在 我 的 软件 工程 师 职业 生涯 中 ， 我 几乎 没有 发 现 像 网 络 数据 采集 这 样 的 编程 实 
践 ， 可 以 同时 吸引 程序 员 和 门外汉 的 注意 。 虽 然 写 一 个 简单 的 网 络 慌 虫 并 不 难 ， 就 是 先 收 
集 数 据 ， 再 显示 到 命令 行 或 者 存储 到 数据 库 里 ， 但 是 无 论 你 之 前 已 经 做 过 多 少 次 了 ， 这 件 
事 永远 会 让 你 感到 兴奋 ， 同 时 又 有 新 的 可 能 。 


不 过 遗憾 的 是 ， 当 和 别 的 程序 员 提 起 网 络 数据 采集 时 ， 我 听 到 了 很 多 关于 这 件 事 的 误解 
与 困惑 。 有 些 人 不 确定 它 是 不 是 合法 的 〈 其 实 合法 ) ， 有 人 不 明白 怎么 处 理 那些 到 处 都 是 
JavaScript、 多 媒体 和 cookie 的 新 式 网 站 ， 还 有 人 对 API 和 网 络 爬 虫 的 区 别 感到 困惑 。 


这 本 书 的 初 囊 是 要 解决 人 们 对 网 络 数据 采集 的 诸多 问题 与 误解 ， 并 对 常见 的 网 络 数据 采集 
任务 提供 全 面 的 指导 。 


从 第 1 章 开始 ， 我 将 不 断 地 提供 代码 示例 来 演示 书 中 内 容 。 这 些 代 码 示例 是 开源 的 ， 无 
论 注 明 出 处 与 否 都 可 以 免费 使 用 (但 若 注 明 会 让 作者 感激 不 尽 )。 所 有 的 代码 示例 都 在 
GitHub 网 站 上 (https://github.com/REMitchell/python-scraping)， 可 以 查看 和 下 载 。 


什么 是 网 络 数 据 采 集 

在 互联 网 上 进行 自动 数据 采集 这 件 事 和 互联 网 存在 的 时 间 差 不 多 一 样 长 。 虽 然 网 络 数据 采 
集 并 不 是 新 术语 ， 但 是 多 年 以 来 ， 这 件 事 更 常见 的 称谓 是 网 页 抓 屏 (screen scraping)、 数 
J&44& (data mining)、 网 络 收割 (Web harvesting) 或 其 他 类 似 的 版 本 。 今 天 大 众 好 像 更 
倾向 于 用 “网 络 数据 采集 "， 因 此 我 在 本 书 中 使 用 这 个 术语 ， 不 过 有 时 会 把 网 络 数据 采集 
程序 称 为 网 络 机 器 人 (bots), 
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E 论 上 ， 网 络 数据 采集 是 一 种 通过 多 种 手段 收集 网 络 数据 的 方式 ， 不 光 是 通过 与 API 交互 
(或 者 直接 与 浏览 器 交互 ) 的 方式 。 最 常用 的 方法 是 写 一 个 自动 化 程序 向 网 络 服务 器 请 求 
数据 (通常 是 用 HTML 表单 或 其 他 网 页 文件 )， 然 后 对 数据 进行 解析 ， 提 取 需 要 的 信息 。 


实践 中 ， 网 络 数据 采集 涉及 非常 广泛 的 编程 技术 和 手段 ， 比 如 数据 分 析 、 信 息 安全 等 。 
书 将 在 第 一 部 分 介绍 关于 网 络 数据 采集 和 网 络 仆 行 (crawling) 的 基础 知识 ， 一 些 高 级 主 
题 放 在 第 二 部 分 介绍 。 


为 什么 要 做 网 络 数据 采集 

如 果 你 上 网 的 唯一 方式 就 是 用 浏览 器 ， 那 么 你 其 实 失去 了 很 多 种 可 能 。 虽 然 浏览 器 可 以 更 
方便 地 执行 JavaScript， 显 示 图 片 ， 并 且 可 以 把 数据 展示 成 更 适合 人 类 阅读 的 形式 ， 但 是 
网 络 爬 虫 收集 和 处 理 大 量 数据 的 能 力 更 为 卓越 。 不 像 狭 窗 的 显示 器 窗口 一 次 只 能 让 你 看 一 
个 网 页 ， 网 络 朴 虫 可 以 让 你 一 次 查看 几 千 甚 至 几 百 万 个 网 页 。 







































































另外 ， 网 络 朴 虫 可 以 完成 传统 搜索 引擎 不 能 做 的 事情 。 用 Google 搜索 “ 飞 往 波士顿 最 便 
宜 的 航班 ， 看 到 的 是 大 量 的 广告 和 主流 的 航班 搜索 网 站 。Google 只 知道 这 些 网 站 的 网 页 
会 显示 什么 内 容 ， 却 不 知道 在 航班 搜索 应 用 中 输入 的 各 种 查询 的 准确 结果 。 但 是 ， 设 计 
较 好 的 网 络 爬 虫 可 以 通过 采集 大 量 的 网 站 数据 ， 做 出 飞 往 波士顿 航班 价格 随时 间 变 化 的 图 
表 ， 告 诉 你 买 机 票 的 最 佳 时 间 。 









































你 可 能 会 问 :“ 数 据 不 是 可 以 通过 API 获取 吗 ? ”( 如 果 你 不 熟悉 API， 请 阅读 第 4 章 。) 
确实 ， 如 果 你 能 找到 一 个 可 以 解决 你 的 问题 的 API， 那 会 非常 给 力 。 它 们 可 以 非常 方便 地 
向 用 户 提供 服务 器 里 格式 完好 的 数据 。 当 你 使 用 像 Twitter 或 维基 百科 的 API 时 ， 会 发 现 
一 个 API 同时 提供 了 不 同 的 数据 类 型 。 通 常 ， 如 果 有 API 可 用 ，API 确实 会 比 写 一 个 网 络 
爬虫 程序 来 获取 数据 更 加 方便 。 但 是 ， 很 多 时 候 你 需要 的 API 并 不 存在 ， 这 是 因为 : 


。 你 要 收集 的 数据 来 自 不 同 的 网 站 ， 设 有 一 个 综合 多 个 网 站 数据 的 APT; 

。 你 想 要 的 数据 非常 小 众 ， 网 站 不 会 为 你 单独 做 一 个 API; 

。 一 些 网 站 没有 基础 设施 或 技术 能 力 去 建立 API。 

即使 API 已 经 存在 ， 可 能 还 会 有 请 求 内 容 和 次 数 限 制 ，API 能 够 提供 的 数据 类 型 或 者 数据 
格式 可 能 也 无 法 满足 你 的 需求 。 




















这 时 网 络 数据 采集 就 派 上 用 场 了 。 你 在 浏览 器 上 看 到 的 内 容 ， 大 部 分 都 可 以 通过 编写 
Python 程序 来 获取 。 如 果 你 可 以 通过 程序 获取 数据 ， 那 么 就 可 以 把 数据 存储 到 数据 库 里 。 
如 果 你 可 以 把 数据 存储 到 数据 库 里 ， 自 然 也 就 可 以 将 这 些 数据 可 视 化 。 


显然 ， 大 量 的 应 用 场景 都 会 需要 这 种 几乎 可 以 毫 无 阻 但 地 获取 数据 的 手段 市 场 预 测 、 机 
器 语言 翻译 ， 甚 至 医疗 诊断 领域 ， 通 过 对 新 闻 网 站 、 文 章 以 及 健康 论坛 中 的 数据 进行 采集 
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和 分 析 ， 也 可 以 获得 很 多 好 处 。 


甚至 在 艺术 领域 ， 网 络 数据 采集 也 为 艺术 创作 开辟 了 新 方向 。 由 Jonathan Harris 和 Sep 
Kamvar 在 2006 年 发 起 的 “我 们 感觉 挺 好 ”(We Feel Fine, http//wefeelfine.org/) mH, M 
大 量 英 文博 客 中 抓 取 许 多 以 “I feel” 和 “I am feeling” 开 头 的 短 句 ， 最 终 做 成 了 一 个 很 受 
大 众 欢迎 的 数据 可 视图 ， 描述 了 这 个 世界 每 天 、 每 分 钟 的 感觉 。 




















无 论 你 现在 处 于 哪个 领域 ， 网 络 数 据 采 集 都 可 以 让 你 的 工作 更 高 效 ， 帮 你 提升 生产 力 ， 其 
至 开创 一 个 全 新 的 领域 。 


关于 本 书 


本 书 不 仅 介绍 了 网 络 数据 采集 ， 也 为 采集 新 式 网 络 中 的 各 种 数据 类 型 提供 了 全 面 的 指导 。 
虽然 本 书 用 的 是 Python 编程 语言 ， 里 面 涉及 Python 的 许多 基础 知识 ， 但 这 并 不 是 一 本 
Python 入 门 图 书 。 



























































如 有 果 你 不 太 懂 编程 ， 也 完全 不 了 解 Python， 那 么 这 本 书 看 起 来 可 能 有 点 儿 费 劲 。 但 是 ， 如 
果 你 懂 编 程 ， 那 么 书 中 的 内 容 可 以 很 快 上 手 。 附 录 A 介绍 了 Python 3.x 版 本 的 安装 和 使 用 
方法 ， 全 书 将 使 用 这 个 版 本 的 Python。 如 果 你 的 电脑 里 只 装 了 Python 2.x 版 本 ， 可 能 需要 
先 看 看 附录 A。 


如 果 你 想 更 全 面 地 学 习 Python, Bill Lubanovic 写 的 《Python 语言 及 其 应 用 》: 是 本 非常 
好 的 教材 ， 只 是 书 有 点 儿 厚 。 如 果 不 想 看 书 ，Jessica McKellar 的 教学 视频 Introduction to 
Python (http://shop.oreilly.com/product/110000448.do) 也 非常 不 错 。 









































附录 C 介绍 并 分 析 了 几 个 商业 案例 以 及 犯罪 事件 ， 可 以 帮助 你 了 解 如 何在 美国 合法 地 运行 
网 络 聆 虫 并 使 用 数据 。 


技术 书 通常 都 是 介绍 一 种 语言 或 技术 ， 而 网 络 数据 采集 是 一 个 比较 综合 的 主题 ， 涉 及 数据 
库 、 网 络 服务 器 、HTTP 协议 、HTML 语言 、 网 络 安全 、 图 像 处理 、 数 据 科学 等 内 容 。 本 
} 尝 试 涵盖 网 络 数 据 采集 的 所 有 内 容 。 


第 一 部 分 深入 讲解 网 络 数据 采集 和 网 络 爬 行 相关 内 容 ， 并 重点 介绍 全 书 都 要 用 到 的 几 个 
Python 库 。 这 部 分 内 容 可 以 看 成 这 些 库 和 技术 的 综合 参考 (对 于 一 些 特殊 情形 ， 后 面 会 提 
供 其 他 参考 资料 )。 
第 二 部 分 介绍 读者 在 动手 编写 网 络 扑 虫 的 过 程 中 可 能 会 涉及 的 一 些 主题 。 不 过 ， 这 些 主题 
的 范围 特别 广泛 ， 这 部 分 内 容 也 不 足以 道 尽 辫 机 。 因 此 ， 文 中 提供 了 许多 常用 的 参考 资料 
来 补充 更 多 的 信息 。 

























































































注 1: 中 文 版 已 经 由 人 民 邮 电 








版 社 出 版 。 一 一 编者 注 
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本 书 结构 组 织 灵 活 ， 便 于 你 直接 跳 到 感 兴趣 的 章节 中 阅读 相应 的 网 络 数据 采集 技术 。 如 果 
一 个 概念 或 一 段 代码 在 之 前 的 章 市 中 出 现 过 ， 那 么 我 会 明确 标注 出 具体 的 位 置 。 








排版 约定 
本 书 使 用 了 下 列 排版 约定 。 


。 楷体 
表示 新 术语 。 





。 等 宽 字 体 (constant width) 





表示 程序 片段 ， 以 及 正文 中 出 现 的 变量 、 函 数 名 、 数 据 库 、 数 据 类 型 、 环 境 变 量 、 语 


句 和 关键 字 等 。 


。 加 粗 等 宽 字 体 (constant width bold) 
表示 应 该 由 用 户 输入 的 命令 或 其 他 文本 。 


。 和 斜体 等 宽 字 体 (constant width italic) 


表示 应 该 替换 成 用 户 输入 的 值 ， 或 根据 上 下 文 替换 的 值 。 








图 标 表示 提示 或 建议 。 


w 





该 图 标 表 示 一 般 性 说 明 。 














使 用 代码 示例 


补充 材料 〈 代 码 示 例 、 练 习 等 ) 可 以 从 https://github.com/REMitchell/python-scraping TA. 

















本 书 是 要 帮 你 完成 工作 的 。 一 般 来 说 ， 如 果 本 和 





BB 提供 了 示例 代码 ， 你 可 以 把 它 用 在 你 的 程 


序 或 文档 中 。 除 非 你 使 用 了 很 大 一 部 分 代码 ， 否 则 无 需 联系 我 们 获得 许可 。 比 如 ， 用 本 书 








的 几 个 代码 片段 写 一 个 程序 就 无 需 获 得 许可 ， 销 售 或 分 发 O'Reilly 图 书 的 示例 光盘 则 需要 
获得 许可 ， 引 用 本 书 中 的 示例 代码 回答 问题 无 需 获 得 许可 ， 将 书 中 大 量 的 代码 放 到 你 的 产 
品 文档 中 则 需要 获得 许可 。 


我 们 很 希望 但 并 不 强制 要 求 你 在 引用 本 书 内 容 时 加 上 引用 说 明 。 引 用 说 明 一 般 包括 书 
名 、 作 者 、 出 版 社 和 ISBN。 比 如 : “Web Scraping with Python by Ryan Mitchell (O’Reilly). 
Copyright 2015 Ryan Mitchell, 978-1-491-91029-0.” 








如 果 你 觉得 自己 对 示例 代码 的 用 法 超出 了 上 述 许可 的 范围 ， 欢 迎 你 通过 permissions@oreilly. 
com 与 我 们 联系 。 


Safari? Books Online 


Safari Books Online (http://www.safaribooksonline.com). 是 应 运 
Sa fa ri 而 生 的 数字 图 书馆 。 它 同时 以 图 书 和 视频 的 形式 出 版 世界 顶级 
Books Online. 技术 和 商务 作家 的 专业 作品 。 技 术 专 家 、 软 件 开 发 人 员 、Web 
设计 师 、 商 务 人 士 和 创意 专家 等 ， 在 开展 调研 、 解 决 问题 、 学 
习 和 认证 培训 时 ， 都 将 Safari Books Online 视 作 获取 资料 的 首选 渠道 。 


对 于 组 织 团体 、 政 府 机 构 和 个 人 ，Safari Books Online 提供 各 种 产品 组 合 和 灵活 的 定 
价 策略 。 用 户 可 通过 一 个 功能 完备 的 数据 库 检 索 系 统 访问 O'Reilly Media, Prentice 
Hall Professional, Addison-Wesley Professional, Microsoft Press, Sams, Que, Peachpit 



































Press, Focal Press, Cisco Press, John Wiley & Sons, Syngress, Morgan Kaufmann, IBM 
Redbooks, Packt, Adobe Press, FT Press, Apress, Manning. New Riders, McGraw-Hill, 

Jones & Bartlett, Course Technology 以 及 其 他 几 十 家 出 版 社 的 上 千 种 图 书 、 培 训 视频 和 正 
式 出 版 之 前 的 书稿 。 要 了 解 Safari Books Online 的 更 多 信息 ， 我 们 网 上 见 


联系 我 们 
请 把 对 本 书 的 评价 和 问题 发 给 出 版 社 。 


美 : 
O'Reilly Media, Inc. 
1005 Gravenstein Highway North 
Sebastopol, CA 95472 


中 国 : 
北京 市 西城 区 西直门 南大 街 2 号 成 铭 大 厦 C 座 807 (100035) 
奥 莱 利 技术 咨询 (北京 ) 有限 公司 
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O'Reilly 的 每 一 本 书 都 有 专属 网 页 ， 你 可 以 在 那儿 找到 本 书 的 相关 信息 ， 包 括 勘 误 表 、 示 
例 代码 以 及 其 他 信息 。 本 书 的 网 站 地 址 是 : 
http://oreil.ly/l ePG2Uj 


























对 于 本 书 的 评论 和 技术 性 问题 ， 请 发 送 电 子 邮件 到 : bookquestions Goreilly.com 











要 了 解 更 多 O'Reily 图 书 、 培 训 课程 、 会 议和 新 闻 的 信息 ， 请 访问 以 下 网 站 ; 


http://www.oreilly.com 








我 们 在 Facebook 的 地 址 如 下 : http://facebook.com/oreilly 





请 关注 我 们 的 Twitter 动态 : http://twitter.com/oreillymedia 


我 们 的 YouTube 视频 地 址 如 下 : http:/www.youtube.com/oreillymedia 


致谢 

和 那些 基于 海量 用 户 反 馈 诞 生 的 优秀 产品 一 样 ， 如 果 没 有 许多 协作 者 、 支 持 者 和 编辑 的 
帮助 ， 本 书 可 能 永远 都 不 会 出 版 。 首 先 要 感谢 O'Reilly 团队 对 这 个 小 众 主 题 图 书 的 大 力 支 
持 ， 感 谢 我 的 朋友 和 家 人 阅读 初稿 并 提出 宝贵 的 建议 ， 还 要 感谢 和 我 一 起 在 LinkeDrive 奋 
战 的 同事 们 帮 有 我 分 担 了 很 多 工作 。 











尤其 要 感谢 Allyson MacDonald, Brian Anderson, Miguel Grinberg 和 Eric VanWyk 的 建议 、 
指导 和 偶尔 的 爱 之 深 责 之 切 。 有 一 些 章节 和 代码 示例 是 根据 他 们 的 建议 写成 的 。 





还 要 感谢 Yale Specht 过 去 九 个 月 用 无 尽 的 耐心 和 豆 励 促成 了 这 个 项 目 ， 并 在 我 的 写作 过 程 
中 对 文体 提出 了 宝贵 的 建议 。 没 有 他 ， 这 本 书 可 能 只 用 一 半 时 间 就 能 写 完 ， 但 是 不 会 像 现 
在 这 么 实用 。 














最 后 ， 要 感谢 Jim Waldo， 是 他 许多 年 前 给 一 个 小 孩 邮寄 了 一 个 Linux 机 箱 和 The Art and 
Science of C 那 本 书 ， 帮 她 开局 了 计算 机 世界 的 大 门 。 








2 
Till 


第 一 部 分 


8/12 E 








这 部 分 内 容重 点 介绍 网 络 数据 采集 的 基本 原理 : 如 何 用 Python 从 网 络 服务 器 请 求 信息 ， 如 
何 对 服务 器 的 响应 进行 基本 处 理 ， 以 及 如 何以 自动 化 手段 与 网 站 进行 交互 。 最 终 ， 你 将 轻 
松 游 习 于 网 络 空间 ， 创 建 出 具有 域名 切换 、 信 息 收 集 以 及 信息 存储 功能 的 爬虫 。 


说 实话 ， 如 果 你 想 以 较 少 的 预先 投入 获取 较 高 的 回报 ， 网 络 数据 采集 肯定 是 一 个 值得 踏 入 
的 神奇 领域 。 大 体 上 ， 你 遇 到 的 90% 的 网 络 数据 采集 项 目 使 用 的 都 是 接 下 来 的 六 章 里 介绍 
的 技术 。 这 部 分 内 容 涵盖 了 一 般 人 (也 包括 技术 达 人 ) 在 思 芳 “网 络 展 虫 ”时 通常 的 想法 : 


。 通过 网 站 域名 获取 HTML 数据 

。 根据 目标 信息 解析 数据 

。 存储 目标 信息 

。 如 果 有 必要 ， 移 动 到 另 一 个 网 页 重复 这 个 过 程 





这 将 为 你 学 习 本 书 第 二 部 分 中 更 复杂 的 项 目 英 定 坚实 的 基础 。 不 要 天 真 地 认为 这 部 分 内 容 
没有 第 二 部 分 里 的 一 些 比较 高 级 的 项 目 重要 。 其 实 ， 当 你 写 自己 的 网 络 疏 虫 时 ， 几 乎 每 天 
都 要 用 到 第 一 部 分 的 所 有 内 容 。 
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一 旦 你 开始 采集 网 络 数据 ， 就 会 感受 到 浏览 器 为 我 们 做 的 所 有 细节 。 网 络 上 如 果 没 有 
HTML 文本 格式 层 、CSS 样式 层 、JavaScript 执行 县 和 图 像 泻 染 层 ， 乍 看 起 来 会 有 点 儿 吓 
人 ， 但 是 在 这 一 章 和 下 一 章 ， 我 们 将 介绍 如 何不 通过 浏览 器 的 帮助 来 格式 化 和 理解 数据 。 


本 章 将 首先 向 网 络 服务 器 发 送 GET 请 求 以 获取 具体 网 页 ， 再 从 网 页 中 读 取 HTML 内 容 ， 
最 后 做 一 些 简单 的 信息 提取 ， 将 我 们 要 寻找 的 内 容 分 离 出 来 。 


1.1 网 络 连接 


如 果 你 没 在 网 络 或 网 络 安全 上 花 过 太 多 时 间 ， 那 么 互联 网 的 原理 可 能 看 起 来 有 点 儿 神 秘 。 
准确 地 说 ， 每 当 打 开 浏 览 器 连接 http://google.com 的 时 候 ， 我 们 不 会 思考 网 络 正在 做 什么 ， 
而 且 如 今 也 不 必 思 芳 。 实 际 上 ， 我 认为 很 神奇 的 是 ， 计 算 机 接口 已 经 如 此 先进 ， 让 大 多 数 
人 上 网 的 时 候 完 全 不 思考 网 络 是 如 何 工作 的 。 


























但 是 ， 网 络 数据 采集 需要 抛 开 一 些 接口 的 遮挡 ， 不 仅 是 在 浏览 器 层 〈 它 如 何 解 释 所 有 的 
HTML, CSS 和 JavaScript) ， 有 时 也 包括 网 络 连 接 层 。 








我 们 通过 下 面 的 例子 让 你 对 浏览 器 获取 信息 的 过 程 有 一 个 基本 的 认识 。Alice 有 一 台 网 络 
服务 器 。Bob 有 一 个 台式 机 正 准 备 连 接 Alice 的 服务 器 。 当 一 台 机 器 想 与 另 一 台 机 器 对 话 
时 ， 下 面 的 某 个 行为 将 会 发 生 。 


1. Bob 的 电脑 发 送 一 串 1 和 0 比特 值 ， 表 示 电 路 上 的 高 低 电 压 。 这 些 比 特 构 成 了 一 种 信 
息 ， 包 括 请 求 头 和 消息 体 。 请 求 头 包 含 当 前 Bob 的 本 地 路 由 器 MAC 地 址 和 Alice 的 IP 



































地 址 。 消 息 体 包含 Bob 对 Alice 服务 器 应 用 的 请 求 。 

2. Bob 的 本 地 路 由 器 收 到 所 有 1 和 0 比特 值 ， 把 它们 理解 成 一 个 数据 包 (packet) ， 从 Bob 
自己 的 MAC 地 址 “ 寄 到 ”Alice 的 全 地址 。 他 的 路 由 器 把 数据 包 “ 盖 上 ”自己 的 中 地 
址 作为 “发 件 ” 地 址 ， 然 后 通过 互联 网 发 出 去 。 

3. Bob 的 数据 包 游 历 了 一 些 中介 服 务 器 ， 沿 着 正确 的 物理 /电路 路 径 前 进 ， 到 了 Alice 的 
服务 器 。 

4. Alice 的 服务 器 在 她 的 IP 地 址 收 到 了 数据 包 。 

5. Alice 的 服务 器 读 取 数 据 包 请 求 头 里 的 目标 端口 (通常 是 网 络 应 用 的 SO 端口 ， 可 以 理解 
成 数据 包 的 “房间 号 ”，IP 地 址 就 是 “街道 地 址 ”)， 然 后 把 它 传递 到 对 应 的 应 用 一 一 网 
络 服务 器 应 用 上 。 

6. 网 络 服务 器 应 用 从 服务 器 处 理 器 收 到 一 串 数 据 ， 数 据 是 这 样 的 ; 

4 这 是 一 个 GET 请 求 
* iik XE index.html 

7. 网 络 服务 器 应 用 找到 对 应 的 HTML 文件 ， 把 它 打包 成 一 个 新 的 数据 包 发 送 给 Bob， 然 

后 通过 它 的 本 地 路 由 器 发 出 去 ， 用 同样 的 过 程 回 传 到 Bob 的 机 器 上 。 


























IEL 我 们 就 这 样 实现 了 互联 网 。 


那么 ， 在 这 场 数 据 交换 中 ， 网 络 浏 览 器 从 哪里 开始 参与 的 ?完全 没有 参与 。 其 实 ， 在 互联 
网 的 历史 中 ， 浏 览 器 是 一 个 比较 年 轻 的 发 明 ， 始 于 1990 年 的 Nexus 浏览 器 。 


的 确 ， 网 络 浏览 器 是 一 个 非常 有 用 的 应 用 ， 它 创建 信息 的 数据 包 ， 发 送 它们 ， 然 后 把 你 获 
取 的 数据 解释 成 漂亮 的 图 像 、 声 音 、 视 频 和 文字 。 但 是 ， 网 络 浏览 器 就 是 代码 ， 而 代码 是 
可 以 分 解 的 ， 可 以 分 解 成 许多 基本 组 件 ， 可 重 写 、 重 用 ， 以 及 做 成 我 们 想 要 的 任何 东西 。 
网 络 浏览 器 可 以 让 服务 器 发 送 一 些 数据 ， 到 那些 对 接 无 线 (或 有 线 ) 网 络 接口 的 应 用 上 ， 
但 是 许多 语言 也 都 有 实现 这 些 功能 的 库 文件 。 








让 我 们 看 看 Python 是 如 何 实 现 的 : 
from urllib.request import urlopen 


html = urlopen("http://pythonscraping.com/pages/page1.html") 
print(html.read()) 


你 可 以 把 这 段 代码 保存 为 scrapetestpy， 然 后 在 终端 里 运行 如 下 命令 : 





$python scrapetest.py 


注意 ， 如 果 你 的 设备 上 安装 了 Python 2.x， 可 能 需要 直接 指明 版 本 才能 运行 Python 3.x 
代码 : 





$python3 scrapetest.py 
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这 将 会 输出 http://pythonscraping.com/pages/pagel.html 这 个 网 页 的 全 部 HTML 代码 。 更 
准确 地 说 ， 这 会 输出 在 域名 为 http://pythonscraping.com 的 服务 器 上 < 网 络 应 用 根 地 址 >/ 
pages 文件 夹 里 的 HTML 文件 pagel.html 的 源 代 码 。 





有 什么 区 别 ? 现在 大 多 数 网 页 需要 加 载 许多 相关 的 资源 文件 。 可 能 是 图 像 文件 、JavaScript 
文件 、CSS 文件 ， 或 你 需要 连接 的 其 他 各 种 网 页 内 容 。 当 网 络 浏览 器 遇 到 一 个 标签 时 ， 比 
如 <img src="cuteKitten.jpg">， 会 向 服务 器 发 起 另 一 个 请 求 ， 以 获取 cuteKitten.jpg 文件 
中 的 数据 为 用 户 充 分 泻 染 网 页 。 但 是 ， 我 们 的 Python 程序 没有 返回 并 向 服务 器 请 求 多 个 文 
件 的 逻辑 ， 它 只 能 读 取 我 们 已 经 请 求 的 单个 HTML 文件 。 

















那么 我 们 应 该 怎样 做 呢 ? 幸好 Python 语法 接近 正常 英文 ， 下 面 这 行 代码 


from urllib.request import urlopen 





其 实 已 经 显示 了 它 的 含义 : 它 查 找 Python 的 request 模块 (在 urllib 库 里 面 )， 只 导入 一 个 
urlopen 国 数 。 


urllib 还 是 urllib2 ? 


如 果 你 用 过 Python 2.x 里 的 urllib2 库 ， 可 能 会 发 现 urllib2 与 urllib 有 些 不 同 。 
在 Python 3.x 里 ，urllib2 改名 为 urllib， 被 分 成 一 些 子 模块 : urllib.request, 
urllib.parse 和 urtLLib.error。 尽 管 国 数 名 称 大 多 和 原来 一 样 ， 但 是 在 用 新 
的 urllib 库 时 需要 注意 哪些 函数 被 移动 到 子 模块 里 了 。 











urllib 是 Python 的 标准 库 (就 是 说 你 不 用 额外 安装 就 可 以 运行 这 个 例子 )， 包 含 了 从 网 
络 请 求 数据 ， 处 理 cookie， 黄 至 改变 像 请 求 头 和 用 户 代 理 这 些 元 数据 的 函数 。 我 们 将 在 
本 书 中 广泛 使 用 urtlib， 所 以 建议 你 读 读 这 个 库 的 Python 文档 (https://docs.python.org/3/ 
library/urllib.html ) 。 





urlopen 用 来 打开 并 读 取 一 个 从 网 络 获 取 的 远程 对 象 。 因 为 它 是 一 个 非常 通用 的 库 〈 它 可 
以 轻松 读 取 HTML 文件 、 图 像 文 件 ， 或 其 他 任何 文件 流 )， 所 以 我 们 将 在 本 书 中 频繁 地 使 
HE. 

















1.2 BeautifulSoup 简 介 


“美味 的 汤 , 绿 色 的 浓 汤 ， 

在 热气 腾腾 的 盖 碗 里 装 ! 

谁 不 愿意 尝 一 尝 , 这 样 的 好 汤 ? 
晚餐 用 的 汤 ,美味 的 汤 ! ” 


BeautifulSoup 库 的 名 字 取 自 刘易斯 . 卡 罗 尔 在 《爱丽 丝 梦 游 仙境 》 里 的 同名 诗歌 。 在 故事 
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中 ， 这 首 诗 是 素 甲 鱼 唱 的 。 


就 像 它 在 仙境 中 的 说 法 一 样 ，BeautifulSoup 尝试 化 平淡 为 神奇 。 它 通过 定位 HTML 标签 来 
格式 化 和 组 织 复杂 的 网 络 信 息 ， 用 简单 易 用 的 Python 对 象 为 我 们 展现 XML 结构 信息 。 








1.2.1 安装 BeautifulSoup 


由 于 BeautifulSoup 库 不 是 Python 标准 库 ， 因 此 需要 单独 安装 。 在 本 书 中 ， 我 们 将 使 用 最 
新 的 BeautifulSoup 4 版 本 (也 叫 BS4)。BeautifulSoup 4 的 所 有 安装 方法 都 在 http://www. 
crummy.com/software/BeautifulSoup/bs4/doc/ 里 面 。Linux 系统 上 的 基本 安装 方法 是 : 


























$sudo apt-get install python-bs4 


对 于 Mac 系统 ， 首 先 用 





$sudo easy install pip 

安装 Python 的 包 管 理 器 pip， 然 后 运行 
$pip install beautifulsoup4 

来 安装 库 文件 。 


另外 ， 注 意 如 果 你 的 设备 同时 安装 了 Python 2.x 和 Python 3.x， 你 需要 用 python3 运行 
Python 3.x: 




















$python3 myScript.py 


当 你 安装 包 的 时 候 ， 如 果 有 可 能 安装 到 了 Python 2.x 而 不 是 Python 3.x 里 ， 就 需要 使 用 : 





$sudo python3 setup.py install 
如 果 用 pip 安装 ， 你 还 可 以 用 pip3 安装 Python 3.x 版 本 的 包 : 
$pip3 install beautifulsoup4 


在 Windows 系统 上 安装 与 在 Mac 和 Linux 上 安装 差不多 。 从 上 面 的 下 载 链接 下 载 最 新 的 
BeautifulSoup 4 源 代码 ， 解 压 后 进入 文件 ， 然 后 执行 : 





>python setup.py install 


这 样 就 可 以 了 ! BeautifulSoup 将 被 当 作 设备 上 的 一 个 Python 库 。 你 可 以 在 Python 终端 里 
导入 它 测试 一 下 : 























注 1: Mock Turtle, 它 本 身 是 一 个 双关 语 , 指 英国 维多利亚 时 代 的 流行 菜肴 素 甲 鱼 汤 ,其 实 不 是 甲鱼 而 是 牛肉 ， 
如 同 中 国 的 豆 制品 素 鸡 ， 名 为 素 鸡 ， 其 实 与 鸡 无 关 。 
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$python 
» from bs4 import BeautifulSoup 


如 果 设 有 错误 ， 说 明 导 入 成功 了 。 


另外 ， 还 有 一 个 Windows 版 pip (https://pypi.python.org/pypi/setuptools) 的 .exe 格式 安装 
器 ， 装 了 之 后 你 就 可 以 轻松 安装 和 管理 包 了 ， 


>pip install beautifulsoup4 





用 虚拟 环境 保存 库 文 件 
如 果 你 同时 负责 多 个 Python 项 目 ， 或 者 想 要 轻松 打包 某 个 项 目 及 其 关联 的 库 文 件 ， 再 
或 者 你 担心 已 安装 的 库 之 间 可 能 有 冲突 ， 那 么 你 可 以 安装 一 个 Python 虚拟 环境 来 分 而 
治之 。 
当 一 个 Python 详 不 用 虚拟 环境 安装 的 时 候 ， 你 实际 上 是 全 局 安装 它 。 这 通常 需要 有 管 
理 员 权限 ， 或 者 以 root 身份 安装 ， 这 个 库 文 件 对 设备 上 的 每 个 用 户 和 每 个 项 目 都 是 存 
在 的 。 好 在 创建 虚拟 环境 非常 简单 : 


$ virtualenv scrapingEnv 


这 样 就 创建 了 一 个 叫 作 scrapingEnv 的 新 环境 ， 你 需要 先 激活 它 再 使 用 : 


$ cd scrapingEnv/ 
$ source bin/activate 


激活 环境 之 后 ， 你 会 发 现 环境 名 称 出 现在 命令 行 提示 符 前 面 ， 提 醒 你 当前 处 于 虚拟 环 
境 中 。 后 面 你 安装 的 任何 库 和 执行 的 任何 程序 都 是 在 这 个 环境 下 运行 。 


在 新 建 的 scrapingEnv 环境 里 ， 可 以 安装 并 使 用 BeautifulSoup: 


(scrapingEnv)ryan$ pip install beautifulsoup4 
(scrapingEnv)ryan$ python 

» from bs4 import BeautifulSoup 

> 


当 不 再 使 用 虚拟 环境 中 的 库 时 ， 可 以 通过 释放 命令 来 退出 环境 : 


(scrapingEnv)ryan$ deactivate 
ryan$ python 
» from bs4 import BeautifulSoup 
Traceback (most recent call last): 

File "«stdin»", line 1, in «module» 
ImportError: No module named 'bs4' 


将 项 目 关联 的 所 有 库 单独 放 在 一 个 虚拟 环境 里 ， 还 可 以 轻松 打包 整个 环境 发 生 给 其 他 


A. 只 要 他 们 的 Python 版 本 和 你 的 相同 ， 你 打包 的 代码 就 可 以 直接 通过 座 拟 环境 运 
行 ， 不 需要 再 安装 任何 库 。 











尽管 本 书 的 例子 都 不 要 求 你 使 用 庶 拟 环境 ， 但 是 请 记 住 ， 你 可 以 在 任何 时 候 激 活 并 使 
用 它 。 


c) 





1.2.2 ”运行 BeautifulSoup 


BeautifulSoup 库 最 常用 的 对 象 恰好 就 是 BeautifulSoup 对 象 。 让 我 们 把 本 章 开 头 的 例子 调整 





from urllib.request import urlopen 

from bs4 import BeautifulSoup 

html = urlopen("http://www.pythonscraping.com/pages/page1.html") 
bsObj = BeautifulSoup(html.read()) 

print(bsObj.h1) 


输出 结果 是 : 
<h1>An Interesting Title«/hi» 


和 前 面 例子 一 样 ， 我 们 导入 urlopen， 然 后 调用 html.read OO 获取 网 页 的 HTML 内 容 。 这 
样 就 可 以 把 HTML 内 容 传 到 BeautifulSoup 对 象 ， 转 换 成 下 面 的 结构 : 














e html 一 <html><head>...</head><body>...</body></html> 
一 head 一 <head><title>A Useful Page<title></head> 
— title 一 <title>A Useful Page</title> 
— body > «body»«hl1»An Int...«/h1»«div»Lorem ip...«/div»«/body» 
一 hl 一 <hl>An Interesting Titlec/h1» 


— div 一 <div>Lorem Ipsum dolor...</div> 








可 以 看 出 ， 我 们 从 网 页 中 提取 的 «hi» PREE BeautifulSoup 对 象 bs0bj 结构 的 第 二 层 
(html 一 body 一 h1)。 但 是 ， 当 我 们 从 对 象 里 提取 hl 标签 的 时 候 ， 可 以 直接 调用 它 : 








bsobj .hi 





























其 实 ， 下 面 的 所 有 国 数 调 用 都 可 以 产生 同样 的 结果 : 





bsObj.html.body.h1 
bsObj.body.h1 
bsObj.html.h1 


希望 这 个 例子 可 以 向 你 展示 BeautifulSoup 库 的 强大 与 简单 。 其 实 ， 任 何 HIML (或 
XML) 文件 的 任意 节点 信息 都 可 以 被 提取 出 来 ， 只 要 目标 信息 的 旁边 或 附近 有 标记 就 行 。 
在 第 3 章 ， 我 们 将 进一步 探讨 一 些 更 复杂 的 BeautifulSoup 函数 ， 还 会 介绍 正则 表达 式 ， 以 
及 如 何 把 正则 表达 式 用 于 BeautifulSoup 以 对 网 站 信息 进行 提取 。 








o 
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1.2.3 ”可靠 的 网 络 连 接 

网 络 是 十 分 复杂 的 。 网 页 数据 格式 不 友好 ， 网 站 服务 器 宕 机 ， 目 标 数据 的 标签 找 不 到 ， 都 
是 很 麻烦 的 事情 。 网 络 数据 采集 最 痛苦 的 遭遇 之 一 ， 就 是 店 虫 运行 的 时 候 你 洗 洗 睡 了 ， 梦 
想 着 明天 一 早 数据 就 都 会 采集 好 放 在 数据 库 里 ， 结 果 第 二 天 醒 来 ， 你 看 到 的 却 是 一 个 因 某 
种 数据 格式 异常 导致 运行 错误 的 爬虫 ， 在 前 一 天 当 你 不 再 盯 着 屏幕 去 睡觉 之 后 ， 没 过 一 会 
儿 疏 虫 就 不 再 运行 了 。 和 那个 时 候 ， 你 可 能 想 骂 发 明 互 联网 (以 及 那些 奇 划 的 网 络 数 据 格 
式 ) 的 人 ， 但 是 你 真正 应 该 斥责 的 人 是 你 自己 ， 为 什么 一 开始 不 估计 可 能 会 出 现 的 异常 ! 


让 我 们 看 看 爬虫 import 语句 后 面 的 第 一 行 代码 ， 如 何 处 理 那 里 可 能 出 现 的 异常 : 












































html = urlopen("http://www.pythonscraping.com/pages/page1.html") 
这 行 代 码 主要 可 能 会 发 生 两 种 异常 ; 
。 网 页 在 服务 器 上 不 存在 〈 或 者 获取 页 面 的 时 候 出 现 错误 ) 
。 服务 器 不 存在 


第 一 种 异常 发 生 时 ,程序 会 返回 HTTP HHR, HTTP 错误 可 能 是 “404 Page Not Found”“500 
Internal Server Error” 等 。 所 有 类 似 情形 ，urlopen 函数 都 会 殷 出 “HTTPError” 异 常 。 我 们 
可 以 用 下 面 的 方式 处 理 这 种 异常 : 




















try: 
html = urlopen("http://www.pythonscraping.com/pages/page1.html") 
except HTTPError as e: 
print(e) 
# 返回 空 值 ,中 断 程序 ,或 者 执行 另 一 个 方案 
else: 
# 程序 继续 。 注 意 :如 果 你 已 经 在 上 面 异常 捕捉 那 一 段 代码 里 返回 或 中 断 (break)， 
# 那么 就 不 需要 使 用 else 语 句 了 ,这 上 段 代码 也 不 会 执行 


如 果 程 序 返回 HITP 错误 代码 ， 程 序 就 会 显示 错误 内 容 ， 不 再 执行 else 语句 后 面 的 代码 。 




















如 果 服 务 器 不 存在 (就 是 说 链接 http//www.pythonscraping.com/ 打 不 开 ， 或 者 是 URL 链接 
写 错 了 ) ，urlopen 会 返回 一 个 None 对 象 。 这 个 对 象 与 其 他 编程 语言 中 的 nut 类 似 。 我 们 
可 以 增加 一 个 判断 语句 检测 返回 的 html 是 不 是 None: 

















if html is None: 
print("URL is not found") 
else: 


# 程序 继续 
当然 ， 即 使 网 页 已 经 从 服务 器 成 功 获取 ， 如 果 网 页 上 的 内 容 并 非 完 全 是 我 们 期 望 的 那样 ， 
仍然 可 能 会 出 现 异常 。 每 当 你 调用 BeautifulSoup 对 象 里 的 一 个 标签 时 ， 增 加 一 个 检查 条 件 
保证 标签 确实 存在 是 很 聪明 的 做 法 。 如 果 你 想 要 调用 的 标签 不 存在 ，BeautifulSoup 就 会 返 
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El None 对 象 。 不 过 ， 如 果 再 调用 这 个 None 对 象 下 面 的 子 标签 ， 就 会 发 生 AttributeError 
错误 。 




















下 面 这 行 代 码 (nonExistentTag 是 虚拟 的 标签 ，BeautifulSoup 对 象 里 实际 没有 ) 














print(bsObj.nonExistentTag) 


会 返回 一 个 None 对 象 。 处 理 和 检查 这 个 对 象 是 十 分 必要 的 。 如 果 你 不 检查 ， 直 接 调 用 这 个 
None 对 象 的 子 标签 ， 有 麻烦 就 来 了 。 如 下 所 示 。 





print(bsObj.nonExistentTag.someTag) 
这 时 就 会 返回 一 个 异常 : 
AttributeError: 'NoneType' object has no attribute 'someTag' 
那么 我 们 怎么 才能 避免 这 两 种 情形 的 异常 呢 ? 最 简单 的 方式 就 是 对 两 种 情形 进行 检查 : 


try : 
badContent = bsObj.nonExistingTag.anotherTag 
except AttributeError as e: 
print("Tag was not found") 
else: 
if badContent -- None: 
print ("Tag was not found") 
else: 
print(badContent) 


初 看 这 些 检查 与 错误 处 理 的 代码 会 觉得 有 点 儿 累 奖 ， 但 是 ， 我 们 可 以 重新 简单 组 织 一 下 代 
码 ， 让 它 变 得 不 那么 难 写 (更 重要 的 是 ， 不 那么 难 读 )。 例 如 ， 下 面 的 代码 是 上 面 让 由 的 
另 一 种 写法 : 









































from urllib.request import urlopen 
from urllib.error import HTTPError 
from bs4 import BeautifulSoup 
def getTitle(url): 
try: 
html = urlopen(url) 
except HTTPError as e: 
return None 
try: 
bsObj = BeautifulSoup(html.read()) 
title = bsObj.body.h1 
except AttributeError as e: 
return None 
return title 
title = getTitle("http://www.pythonscraping.com/pages/page1.html") 
if title -- None: 
print("Title could not be found") 
else: 
print(title) 
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在 这 个 例子 中 ， 我 们 创建 了 一 个 getTitle 国 数 ， 可 以 返回 网 页 的 标题 ， 如 果 获 取 网 页 
的 时 候 遇 到 问题 就 返回 一 个 None 对 象 。 在 getritle 函数 里 面 ， 我 们 像 前 面 那 样 检查 了 
HTTPError， 然 后 把 两 行 BeautifulSoup 代码 封装 在 一 个 try 语句 里 面 。 这 两 行 中 的 任何 一 
行 有 问题 ，AttributeError 都 可 能 被 抛 出 (如 果 服 务 器 不 存在 ，html 就 是 一 个 None 对 象 ， 
html.read() WAHHH AttributeError)。 其 实 ， 我们 可 以 在 try 语句 里 面 放任 意 多 行 代码 ， 
或 者 放 一 个 在 任意 位 置 都 可 以 抛 出 AttributeError 的 函数 。 



































在 写 仆 虫 的 时 候 ， 思 考 代码 的 总 体格 局 ， 让 代码 既 可 以 捕捉 异常 又 容易 阅读 ， 这 是 很 重要 
的 。 如 果 你 还 希望 能 够 很 大 程度 地 重用 代码 ， 那 么 拥有 像 getStteHTML 和 getTitle 这 样 的 
通用 函数 (具有 周密 的 异常 处 理 功 能 ) 会 让 快速 稳定 地 网 络 数据 采集 变 得 简单 易 行 。 








第 2 章 


复杂 HTML 解 析 





当 米 开朗 基 罗 被 问 及 如 何 完 成 《大 卫 》 这 样 匠心 独 具 的 雕刻 作品 时 ， 他 有 一 段 著 名 的 回 
答 :“ 很 简单 ， 你 只 要 用 锤子 把 石头 上 不 像 大 卫 的 地 方 融 掉 就 行 了 。” 


虽然 网 络 数据 采集 和 大 理 石 雕刻 大 相 径 庭 ， 但 是 当 我 们 从 复杂 的 网 页 中 寻 砚 信息 时 ， 也 必 
须 持 有 类 似 的 态度 。 在 我 们 找到 目标 信息 之 前 ， 有 很 多 技巧 可 以 帮 有 我 们 “ 殴 掉 ”网 页 上 那 
些 不 需要 的 信息 。 这 一 章 我 们 将 介绍 解析 复杂 的 HTML 页 面 的 方法 ， 从 中 抽取 出 我 们 需要 
的 信息 。 


2.1 不 是 一 直 都 要 用 锤子 


面 对 页 面 解析 难题 (Gordian Knot) 的 时 候 ， 不 假 思索 地 直接 写 几 行 语 名 来 抽取 信息 是 非 
常 直接 的 做 法 。 但 是 ， 像 这 样 鲁 磊 放纵 地 使 用 技术 ， 只 会 让 程序 变 得 难以 调试 或 脆弱 不 
堪 ， 甚 至 二 者 兼 具 。 在 开始 解析 网 页 之 前 ， 让 我 们 看 一 些 在 解析 复杂 的 HTML 页 面 时 需要 
避免 的 问题 。 

假如 你 已 经 确定 了 目标 内 容 ， 可 能 是 采集 一 个 名 字 、 一 组 统计 数据 ， 或 者 一 段 文 字 。 你 
的 目标 内 容 可 能 隐藏 在 一 个 HTML. “EE” HJ5S 20 层 标签 里 ， 带 有 许多 没 用 的 标签 或 
HTML 属性 。 假 如 你 不 经 萎 虑 地 直接 写 出 下 面 这 样 一 行 代码 来 抽取 内 容 : 







































































bsObj.findAll("table")[4].findAll("tr")[2].find("td").findAll("div")[1].find("a") 


虽然 也 可 以 达到 目标 ， 但 这 样 看 起 来 并 不 是 很 好 。 除 了 代码 欠缺 美 感 之 外 ， 还 有 一 个 问题 
是 ， 当 网 站 管理 员 对 网 站 稍 作 修改 之 后 ， 这 行 代码 就 会 失效 ， 甚 至 可 能 会 毁 掉 整个 网 络 让 























虫 。 那 么 你 应 该 怎么 做 呢 ? 


。 寻找 “打印 此 页 ”的 链接 ， 或 者 看 看 网 站 有 没有 HTML 样式 更 友好 的 移动 版 (把 自己 
的 请 求 头 设置 成 处 于 移动 设备 的 状态 , 然后 接收 网 站 移动 版 , 更 多 内 容 在 第 12 章 介 绍 ) 。 

。 寻找 隐藏 在 JavaScript 文件 里 的 信息 。 要 实现 这 一 点 ， 你 可 能 需要 查看 网 页 加 载 的 
JavaScript 文件 。 我 曾经 要 把 一 个 网 站 上 的 街道 地 址 (以 经 度 和 纬度 呈现 的 ) 整理 成 格 
式 整 洁 的 数组 时 ， 查 看 过 内 艇 谷歌 地 图 的 JavaScript 文件 ， 里 面 有 每 个 地 址 的 标记 点 。 

。 虽然 网 页 标题 经 常会 用 到 ， 但 是 这 个 信息 也 许可 以 从 网 页 的 URL 链接 里 获取 。 

。 如 果 你 要 找 的 信息 只 存在 于 一 个 网 站 上 ， 别 处 没有 ， 那 你 确实 是 运气 不 佳 。 如 果 不 只 限 
于 这 个 网 站 ， 那 么 你 可 以 找 找 其 他 数据 源 。 有 没有 其 他 网 站 也 显示 了 同样 的 数据 ?网 站 
上 显示 的 数据 是 不 是 从 其 他 网 站 上 抓 取 后 攒 出 来 的 ? 


尤其 是 在 面 对 埋藏 很 深 或 格式 不 友好 的 数据 时 ， 千 万 不 要 不 经 思考 就 写 代 码 ， 一 定 要 三 思 
而 后 行 。 如 果 你 确定 自己 不 能 另辟蹊径 ， 那 么 本 章 后 面 的 内 容 就 是 为 你 准备 的 。 














































































































2.2 ”再 端 一 碗 BeautifulSoup 


在 第 1 章 里 ， 我 们 快速 演示 了 BeautifulSoup 的 安装 与 运行 过 程 ， 同 时 也 实现 了 每 次 选择 一 
个 对 象 的 解析 方法 。 在 这 一 节 ， 我 们 将 介绍 通过 属性 查找 标签 的 方法 ， 标 签 组 的 使 用 ， 以 
及 标签 解析 树 的 导航 过 程 。 


基本 上 ， 你 见 过 的 每 个 网 站 都 会 有 层 县 样式 表 (Cascading Style Sheet，CSS)。 虽 然 你 可 
能 会 认为 ， 专 门 为 了 让 浏览 器 和 人 类 可 以 理解 网 站 内 容 而 设计 一 个 展现 样式 的 层 ， 是 一 件 
思春 的 事 ， 但 是 CSS 的 发 明 却 是 网 络 爬 虫 的 福音 。CSS 可 以 让 HTML 元 素 呈 现 出 差异 化 ， 
使 那些 具有 完全 相同 修饰 的 元 素 呈 现 出 不 同 的 样式 。 比 如 ， 有 一 些 标签 看 起 来 是 这 样 : 















































«span class-"green"»«/span» 
而 另 一 些 标签 看 起 来 是 这 样 : 


«span class-"red"»«/span» 





BKEk np L8 rt class 属性 的 值 ， 轻 松 地 区 分 出 两 种 不 同 的 标签 。 例 如 ， 它 们 可 以 用 
BeautifulSoup 抓 取 网 页 上 所 有 的 红色 文字 ， 而 绿色 文字 一 个 都 不 抓 。 因 为 CSS 通过 属性 准 
确 地 呈现 网 站 的 样式 ， 所 以 你 大 可 放心 ， 大 多 数 新 式 网 站 上 的 class 和 id 属性 资源 都 非常 
丰富 。 

下 面 让 我 们 创建 一 个 网 络 仆 虫 来 抓 取 http://www.pythonscraping.com/pages/warandpeace.html 
这 个 网 页 。 



































在 这 个 页 面 里 ， 小 说 人 物 的 对 话 内 容 都 是 红色 的 ， 人 物 名 称 都 是 绿色 的 。 你 可 以 看 到 网 页 
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源 代 码 里 的 span 标签 ， 引 用 了 对 应 的 CSS 属性 ， 如 下 所 示 : 





"<span class="red">Heavens! what a virulent attack!«/span»" replied «span class= 
"green">the prince«/span», not in the least disconcerted by this reception. 


我 们 可 以 抓 出 整个 页 面 ， 然 后 创建 一 个 BeautifulSoup 对 象 ， 和 第 1 章 里 使 用 的 程序 类 似 : 


from urllib.request import urlopen 

from bs4 import BeautifulSoup 

html = urlopen("http://www.pythonscraping.com/pages/warandpeace.html") 
bsObj = BeautifulSoup(html) 





通过 BeautifulSoup 对 象 ， 我 们 可 以 用 findALL 函数 抽取 只 包含 在 <span class="green"></ 
span» 标签 里 的 文字 ， 这 样 就 会 得 到 一 个 人 物 名 称 的 Python 列表 (findAll 是 一 个 非常 灵 
活 的 函数 ， 我 们 后 面 会 经 常用 到 它 ) : 














namelist = bsObj.findAll("span", ("class":"green"]) 
for name in namelist: 
print(name.get text()) 


代码 执行 以 后 就 会 按照 《战争 与 和 平 》 中 的 人 物 出 场 顺 序 显 示 所 有 的 人 名 。 这 是 怎么 实现 
的 呢 ? 之 前 ， 我 们 调用 bsObj.tagName 只 能 获取 页 面 中 的 第 一 个 指定 的 标签 。 现 在 ， 我 们 
调用 bs0bj.findALL(tagName，tagAttributes) 可 以 获取 页 面 中 所 有 指定 的 标签 ， 不 再 只 是 
第 一 个 了 。 


获取 人 名 列表 之 后 ， 程 序 遍 历 列 表 中 所 有 的 名 字 ， 然 后 打印 name.get_text()， 就 可 以 把 标 
签 中 的 内 容 分 开 显 示 了 。 








什么 时 候 使 用 get_text() 与 什么 时 候 应 该 保留 标签 ? 


.get_text() 会 把 你 正在 处 理 的 HTML 文档 中 所 有 的 标签 都 清除 ， 然 后 返回 
一 个 只 包含 文字 的 字符 串 。 假 如 你 正在 处 理 一 个 包含 许多 超 链接 、 段 落 和 标 
签 的 大 段 源 代码 ， 那 么 .get_text() 会 把 这 些 超 链接 、 有 段落 和 标签 都 清除 掉 ， 
只 剩 下 一 串 不 带 标签 的 文字 。 























用 BeautifulSoup 对 象 查找 你 想 要 的 信息 ， 比 直接 在 HTML 文本 里 查找 信 
息 要 简单 得 多 。 通 常 在 你 准备 打印 、 存 储 和 操作 数据 时 ， 应 该 最 后 才 使 
用 .get_text()。 一 般 情 况 下 ， 你 应 该 尽 可 能 地 保留 HTML 文档 的 标签 结构 。 
































2.2.1 _ BeautifulSoup 的 ftnd() 和 findALL( ) 


BeautifulSoup 里 的 ftnd() 和 findALL() 可 能 是 你 最 常用 的 两 个 国 数 。 借 助 它们 ， 你 可 以 通 
过 标签 的 不 同属 性 轻松 地 过 滤 HTML 页 面 ， 查 找 需要 的 标签 组 或 单个 标签 。 
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这 两 个 函数 非常 相似 ，BeautifulSoup 文档 里 两 者 的 定义 就 是 这 样 : 


findAll(tag, attributes, recursive, text, limit, keywords) 
find(tag, attributes, recursive, text, keywords) 


很 可 能 你 会 发 现 ， 自 己 在 95% 的 时 间 里 都 只 需要 使 用 前 两 个 参数 : tag 和 attributes。 但 
是 ， 我 们 还 是 应 该 仔细 地 观察 所 有 的 参数 。 


标签 参数 tag 前 面 已 经 介绍 过 
y 





你 可 以 传 一 个 标签 的 名 称 或 多 个 标签 名 称 组 成 的 Python 
表 做 标签 参数 。 例 如 ,下 面 的 代码 将 返回 一 个 包含 HTML 文档 中 所 有 标题 标签 的 列表 : 





— 





.findAlL(("h1" , "h2" ,"h3" ,"h4" ,"h5","h6"}) 


属性 参数 attributes 是 用 一 个 Python 字典 封装 一 个 标签 的 若干 属性 和 对 应 的 属性 值 。 例 
如 ， 下 面 这 个 函数 会 返回 HTML 文档 里 红色 与 绿色 两 种 颜色 的 span 标签 : 




















.findAll("span", {"class":{"green", "red"}}) 

















递归 参数 recursive 是 一 个 布尔 变量 。 你 想 抓 取 HTML 文档 标签 结构 里 多 少 层 的 信息 ? 如 果 
recursive 设置 为 True，findALL 就 会 根据 你 的 要 求 去 查找 标签 参数 的 所 有 子 标签 ， 以 及 子 
标签 的 子 标签 。 如 果 recursive 设置 为 False，findAll 就 只 查找 文档 的 一 级 标签 。findAll 
默认 是 支持 递归 查找 的 (recursive 默认 值 是 True) ; 一 般 情 况 下 这 个 参数 不 需要 设置 ， 除 
非 你 真正 了 解 自 己 需 要 哪些 信息 ， 而 且 抓 取 速 度 非 常 重要 ， 那 时 你 可 以 设置 递归 参数 。 


























文本 参数 text 有 点 不 同 ， 它 是 用 标签 的 文本 内 容 去 匹配 ， 而 不 是 用 标签 的 属性 。 假 如 我 们 
想 查 找 前 面 网 页 中 包含 “the prince” 内 容 的 标签 数量 ， 我 们 可 以 把 之 前 的 findAll 方法 换 
成 下 面 的 代码 : 





























namelist = bsObj.findAll(text-"the prince") 
print(len(namelist)) 





输出 结果 为 ETA 


范围 限制 参数 Linit， 显 然 只 用 于 findall 方法 。find 其 实 等 价 于 findAll 的 limit 等 于 
1 时 的 情形 。 如 果 你 只 对 网 页 中 获取 的 前 x 项 结果 感 兴趣 ， 就 可 以 设置 它 。 但 是 要 注意 ， 
这 个 参数 设置 之 后 ， 获 得 的 前 几 项 结果 是 按照 网 页 上 的 顺序 排序 的 ， 未 必 是 你 想 要 的 那 
前 几 项 。 

















还 有 一 个 关键 词 参数 keyword， 可 以 让 你 选择 那些 具有 指定 属性 的 标签 。 例 如 : 





allText = bsObj.findAll(id-2"text") 
print(allText[0].get text()) 

















注 1: 如 果 你 想 获得 文档 里 的 一 组 h«some level- 标签 ， 可 以 用 更 简洁 的 方法 写 代码 来 完成 。 我 们 将 在 2.4 
市 介绍 这 类 问题 的 处 理 方法 。 
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关键 词 参数 的 注意 事项 

虽然 关键 词 参数 keyword 在 一 些 场景 中 很 有 用 ， 但 是 ， 它 是 BeautifulSoup 在 
技术 上 做 的 一 个 元 余 功 能 。 任 何 用 关键 词 参数 能 够 完成 的 任务 ， 同 样 可 以 用 
本 章 后 面 将 介绍 的 技术 解决 〈 请 参见 2.3 节 和 2.6 节 )。 

例如 ， 下 面 两 行 代码 是 完全 一 样 的 : 


bsobj. findAll(id-"text") 
bsO0bj.findAll("", ["id":"text") 


另外 ， 用 keyword 偶尔 会 出 现 问 题 ， 尤 其 是 在 用 class 属性 查找 标签 的 时 候 ， 

因为 class 是 Python 中 受 保护 的 关键 字 。 也 就 是 说 ，class 是 Python 语言 

的 保留 字 ， 在 Python 程序 里 是 不 能 当 作 变 量 或 参数 名 使 用 的 (和 前 面 介绍 

的 BeautifulSoup.findAll() 里 的 keyword 无 关 )“。 假 如 你 运行 下 面 的 代码 ， 

Python 就 会 因为 你 误 用 class 保留 字 而 产生 一 个 语法 错误 : 
bsObj.findAll(class-"green") 

不 过 ， 你 可 以 用 BeautifulSoup HEISA AJURE D, Æ class 后 面 增 加 
bsObj.findAll(class -"green") 

另外 ， 你 也 可 以 用 属性 参数 把 class 用 引号 包 起 来 : 


bsObj.findAll("", ["class":"green"]) 





























看 到 这 里 ， 你 可 能 会 拉 心 自问 :“ 现 在 我 是 不 是 已 经 知道 如 何 用 标签 属性 获取 一 组 标签 
了 一 一 用 字典 把 属性 传 到 函数 里 就 行 了 ? “ 


回忆 一 下 前 面 的 内 容 ， 通 过 标签 参数 tag 把 标签 列表 传 到 .findALL() 里 获取 一 列 标签 ， 其 
实 就 是 一 个 “或 ”关系 的 过 滤器 ( 即 选 择 所 有 带 标签 1 或 标签 2 或 标签 3…… 的 一 列 标 
签 )。 如 果 你 的 标签 列表 很 长 ， 就 需要 花 很 长 时 间 才 能 写 完 。 而 关键 词 参数 keyword 可 以 让 
你 增加 一 个 “与 ”关系 的 过 滤器 来 简化 工作 。 











2.2.2 ”其 他 BeautifulSoup 对 象 

看 到 这 里 ， 你 已 经 见 过 BeautifulSoup 库 里 的 两 种 对 象 了 。 

e BeautifulSoup 对 象 
前 面 代 码 示例 中 的 bs0bj 

。 标签 Tag 对 象 
BeautifulSoup 对 象 通 过 find 和 findALL， 或 者 直接 调用 子 标签 获取 的 一 列 对 象 或 单个 
对 象 ， 就 像 : 

















注 2: Python 语言 参考 里 提供 了 关键 词 列表 (https://docs.python.org/3/reference/lexical_analysis.html#keywords) 。 
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bsObj.div.hi 


但 是 ， 这 个 库 还 有 另外 两 种 对 象 ， 虽 然 不 常用 ， 却 应 该 了 解 一 下 。 


e NavigableString 对 象 


用 来 表示 标签 里 的 文字 ， 不 是 标签 (有些 函 数 可 以 操作 和 生成 NavigableString 对 象 ， 





而 不 是 标签 对 象 ) 。 


。 Comment 对 象 


用 来 查找 HTML 文档 的 注释 标签 ， 


<!-- 像 这 样 


--> 





这 四 个 对 象 是 你 用 BeautifulSoup 库 时 会 遇 到 的 所 有 对 象 (写作 本 书 的 时 候 )。 


2.2.3 ”导航 树 














findAtLL 函数 通过 标签 的 名 称 和 属性 来 查找 标签 。 但 是 如 有 果 你 需要 通过 标签 在 文档 中 的 位 


置 来 查找 标签 ， 





该 怎么 办 ? 这 就 是 导航 树 (Navigating Trees). 的 作用 。 在 第 1 章 里 ， 我 们 


看 过 用 单一 方向 进行 BeautifulSoup 标签 树 的 导航 : 


bsObj.tag.subTag.anotherSubTag 


现在 我 们 用 虚拟 的 在 线 购物 网 站 http://www.pythonscraping.com/pages/page3.html 作为 要 抓 





取 的 示例 网 页 ， 演 示 HTML 导航 树 的 纵向 和 横向 导航 (如 图 





2-1 所 示 )。 








Basket 


Russian 
Nesting 
Dolls 


Fish 
Painting 


Dead 
Parrot 





Ttem Title 


Vegetable 


1g 5 Totally Normal Gifts 


Here is a collection of totally normal, totally reasonable gifts that your friends are sure to love! Our collection is hand-curatc 


Description 


This vegetable basket is the perfect gift for your 
health conscious (or overweight) friends! Now 
with super-colorful bell peppers! 


Hand-painted by trained monkeys, these 
exquisite dolls are priceless! And by "priceless," 
we mean "extremely expensive"! 8 entire dolls 
per set! Octuple the presents! 


If something seems fishy about this painting, it's 


because it's a fish! Also hand-painted by trained 
monkeys! 


This is an ex-parrot! Or maybe he's only resting? 


We haven't figured out how to make online shopping carts yet, but you can send us a check to: 

123 Main St. 

Abuja, Nigeria 

We will then send your totally amazing gift, pronto! Please include an extra $5.00 for gift wrapping. 





Cost Image 
$15.00 
$10,000.52 FU 
N 


$10,005.00 > 
f | 
PE 


$0.50 








2-1: http://www.pythonscraping.com/pages/page3.html 截图 

















这 个 HTML 页 面 可 以 映射 成 一 棵 树 (为 了 简洁 ， 省 略 了 一 些 标签 )， 如 下 所 示 : 
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。 html 
一 body 
一 div.wrapper 
一 hl 
一 div.content 
— table#giftList 
— tr 
—th 
—th 
—th 
—th 
— tr.giftitgiftl 
— td 
— td 
— span.excitingNote 
— td 
— td 
— img 
n 其 他 表格 行 省 略 了 .……: 


一 div.footer 
在 后 面 几 节 内 容 里 ， 我 们 仍然 以 这 个 HTML 标签 结构 为 例 。 


1. 处 理子 标签 和 其 他 后 代 标 签 
在 计算 机 科学 和 一 些 数学 领域 中 ， 你 经 常会 听 到 “ 虐 子 ”事件 (比喻 对 一 些 子 事件 


的 处 理 方式 ) : 移动 它们 ， 储 存 它 们 ， 删 除 它 们 ， 甚 至 杀 死 它们 。 值 得 庆幸 的 是 ， 在 
BeautifulSoup 里 ， 子 标签 的 处 理 方式 没 那么 残忍 。 
































和 许多 其 他 库 一 样 ， 在 BeautifulSoup 库 里 ， 孩 子 (child) 和 后 代 (descendant) 有 显著 的 
不 同 : 和 人 类 的 家 谱 一 样 ， 子 标签 就 是 一 个 父 标 签 的 下 一 级 ， 而 后 代 标 签 是 指 一 个 父 标 签 
下 面 所 有 级 别 的 标签 。 例 如 ，tr 标签 是 tabel 标签 的 子 标签 ， 而 tr. th, td, img 和 span 
标签 都 是 tabel 标签 的 后 代 标签 (我们 的 示例 页 面 中 就 是 如 此 )。 所 有 的 子 标签 都 是 后 代 标 
签 ， 但 不 是 所 有 的 后 代 标 签 都 是 子 标签 。 


一 般 情况 下 ，BeautifulSoup 函数 总 是 处 理 当 前 标签 的 后 代 标 签 。 例 如 ，bs0bj.body.hi X 
择 了 body 标签 后 代 里 的 第 一 个 hi 标签 ， 不 会 去 找 body 外 面 的 标签 。 



































类 似 地 ，bs0bj.div.findAlL("img") 会 找 出 文档 中 第 一 个 div 标签 ， 然 后 获取 这 个 div 后 
代 里 所 有 的 ing 标签 列表 。 
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如 果 你 只 想 找 出 子 标签 ， 可 以 用 -children 标签 : 


from urllib.request import urlopen 
from bs4 import BeautifulSoup 


html = urlopen("http://www.pythonscraping.com/pages/page3.html") 
bsObj = BeautifulSoup(html) 


for child in bsObj.find("table",(["id":"giftList")).children: 
print(child) 

















这 段 代 码 会 打印 giftList 表格 中 所 有 产品 的 数据 行 。 如 果 你 用 descendants() 函数 而 不 是 
children() 国 数 ， 那 么 就 会 有 二 十 几 个 标签 打印 出 来 ， 包 括 img 标签 、span 标签 ， 以 及 每 
个 td 标签。 掌握 子 标签 与 后 代 标 签 的 差别 十 分 重要 ! 


2. 处 理 兄 弟 标签 
BeautifulSoup 的 next_siblings() 函数 可 以 让 收集 表格 数据 成 为 简单 的 事情 ， 尤 其 是 处 理 
带 标 题 行 的 表格 : 

from urllib.request import urlopen 

from bs4 import BeautifulSoup 


html = urlopen("http://www.pythonscraping.com/pages/page3.html") 
bsObj = BeautifulSoup(html) 


for sibling in bsObj.find("table",["id":"giftList")).tr.next siblings: 
print(sibling) 


这 段 代码 会 打印 产品 列表 里 的 所 有 行 的 产品 ， 第 一 行 表格 标题 除外 。 为 什么 标题 行 被 跳 过 
了 呢 ? 有 两 个 理由 。 首 先 ， 对 象 不 能 把 自己 作为 兄弟 标签 。 任 何 时 候 你 获取 一 个 标签 的 兄 
弟 标签 ， 都 不 会 包含 这 个 标签 本 身 。 其 次 ， 这 个 函数 只 调用 后 面 的 兄弟 标签 。 例 如 ， 如 果 
我 们 选择 一 组 标签 中 位 于 中 间 位 置 的 一 个 标签 ， 然 后 用 next siblingsO 函数 ， 那 么 它 就 
只 会 返回 在 它 后 面 的 兄弟 标签 。 因 此 ， 选 择 标签 行 然后 调用 next_siblings， 可 以 选择 表 
格 中 除了 标题 行 以 外 的 所 有 行 。 
































让 标签 的 选择 更 具体 


如 果 我 们 选择 bs0bj.table.tr 或 直接 就 用 bs0bj.tr 来 获取 表格 中 的 第 一 行 ， 
上 面 的 代码 也 可 以 获得 正确 的 结果 。 但 是 ， 我 们 还 是 采用 更 长 的 形式 写 了 一 
行 代 码 ， 这 可 以 避免 各 种 意外 : 








bsObj.find("table",{"id":"giftList"}).tr 


即使 页 面 上 只 有 一 个 表格 〈 或 其 他 目标 标签 )， 只 用 标签 也 很 容易 丢失 细节 。 
另外 ， 页 面 布 局 总 是 不 断 变 化 的 。 一 个 标签 这 次 是 在 表格 中 第 一 行 的 位 置 ， 
没准 儿 哪 天 就 在 第 二 行 或 第 三 行 了 。 如 果 想 让 你 的 仆 虫 更 稳定 ， 最 好 还 是 让 
标签 的 选择 更 加 具体 。 如 果 有 属性 ， 就 利用 标签 的 属性 。 
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和 next siblings 一 样 ， 如 果 你 很 容易 找到 一 组 兄弟 标签 中 的 最 后 一 个 标签 ， 那 么 
previous siblings 国 数 也 会 很 有 用 。 





当然 ， 还 有 next sibling 和 previous sibling K žr, + next siblings 和 | previous siblings 
的 作用 类 似 ， 只 是 它们 返回 的 是 单个 标签 ， 而 不 是 一 组 标签 。 


3. 父 标签 处 理 

在 抓 取 网 页 的 时 候 ， 查 找 父 标签 的 需求 比 查 找 子 标签 和 兄弟 标签 要 少 很 多 。 通 常情 况 
下 ， 如 果 以 抓 取 网 页 内 容 为 目的 来 观察 HTML 页 面 ， 我 们 都 是 从 最 上 层 标签 开始 的 ， 然 
后 思考 如 何 定位 我 们 想 要 的 数据 块 所 在 的 位 置 。 但 是 ， 偶 尔 在 特殊 情况 下 你 也 会 用 到 
BeautifulSoup 的 父 标 签 查 找 函 数 ，parent 和 parents。 例 如 : 


























from urllib.request import urlopen 
from bs4 import BeautifulSoup 


html = urlopen("http://www.pythonscraping.com/pages/page3.html") 

bsObj = BeautifulSoup(html) 

print(bsObj.find("img",("src":".. /img/gifts/imgi.jpg" 
J).parent.previous sibling.get text()) 


这 段 代 码 会 打印 ../img/gifts/img1.jpg 这 个 图 片 对 应 商品 的 价格 (这 个 示例 中 价格 是 
$15.00), 

















这 是 如 何 实现 的 呢 ? 下 面 的 图 形 是 我 们 正在 处 理 的 HTML 页 面 的 部 分 结构 ， 用 数字 表示 步 
又 的 话 : 








。 <tr> 
一 <td> 
一 <td> 
一 <td>(3) 
— "$15.00" (4) 
— «td»(2) 
— <img srcz". /img/gifts/imgl.jpg" (1) 
(1) 选择 图 片 标签 src="../img/gifts/img1.jpg"; 
(2) 选择 图 片 标签 的 父 标签 (在 示例 中 是 etd» 标签 ) ; 
(3) 选择 «td» 标签 的 前 一 个 兄弟 标签 previous sibling (在 示例 中 是 包含 美元 价格 的 <td> 
标签 ) ; 
(4) 选择 标签 中 的 文字 ，“$15.00”。 


2.3 正则 表达 式 


计算 机 科学 里 曾经 有 个 笑话 :“ 如 果 你 有 一 个 问题 打算 用 正则 表达 式 (regular expression) 
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来 解决 ， 那 么 就 是 两 个 问题 了 。” 


不 幸 的 是 ， 正 则 表达 式 (通常 简写 regex) 经 常 被 嘲笑 是 一 堆 随 机 符号 的 混和 物 ， 看 着 毫 
无 意义 。 这 种 印象 让 人 对 其 避 而 远 之 ， 然 后 费 尽 心思 写 一 堆 没 必要 又 复杂 的 查找 和 过 滤 函 
数 ， 其 实 他 们 真正 需要 的 就 是 一 行 正 则 表达 式 。 


其 实 正则 表达 式 上 手 一 点 儿 也 不 难 ， 而 且 运行 很 快 ， 通 过 一 些 简 单 的 例子 就 可 以 轻松 地 












































之 所 以 叫 正 则 表达 式 ， 是 因为 它们 可 以 识别 正则 字符 串 (regular string) ; 也 就 是 说 ， 它 们 
可 以 这 么 定义 :“ 如 果 你 给 我 的 字符 串 符 合 规则 ， 我 就 返回 它 "”， 或 者 是 “如 果 字 符 串 不 符 
合 规则 ， 我 就 忽略 它 ”。 这 在 要 求 快 速 浏览 大 文档 ， 以 查找 像 电 话 号 码 和 邮箱 地 址 之 类 的 
字符 串 时 是 非常 方便 的 。 


注意 这 里 我 用 了 一 个 词组 正则 字符 串 。 什 么 是 正则 字符 串 ? 其 实 就 是 任意 可 以 用 一 系列 线 
性 规则 构成 的 字符 串 *“， 就 像 ; 


(字母 “a” 至 少 出 现 一 次 ; 

(2) 后 面 跟着 字母 “b” 重复 5 次 ; 

(3) 后面 再 跟 字母 “c” 重 复 任意 偶数 次 ， 
(4) 最 后 一 位 是 字母 “d ， 也 可 以 没有 。 
















































































满足 上 面 规则 的 字符 串 有 : “aaaabbbbbccccd”“aabbbbbcc” 等 (有 无 穷 多 种 变化 )。 
正则 表达 式 就 是 表达 这 组 规则 的 缩写 。 这 组 规则 的 正则 表达 式 如 下 所 示 : 


aa*bbbbb(cc)*(d | ) 





一 次 看 这 个 字符 串 会 觉得 有 点 儿 奇 划 ， 但 是 当 我 们 把 它 分 解 之 后 就 会 很 清楚 了 。 
e. aa* 

a 后 面 跟着 的 ax ( 读 作 a Æ) 表示 

至 少 出 现 一 次 。 





“重复 任意 次 a， 包 括 0 次 "。 这 样 就 可 以 保证 字母 a 











igi 








。 bbbbb 
这 没有 什么 特别 的 一 一 就 是 5 次 b. 


e (cc)* 
任意 偶数 个 字符 都 可 以 编组 ， 这 个 规则 是 用 括号 两 个 c， 然 后 后 面 跟 一 个 星 号 ， 表 示 有 
任意 次 两 个 c (也 可 以 是 0 次 )。 











注 3: 你 可 能 会 癌 :“ 有 没有 “ 非 正则 ”的 表达 式 ?“ 非 正 则 表达 式 超出 了 本 书 的 介绍 范围， 它们 甚 实 是 指 
Are "mih 而 是 素数 个 a， 后 面 跟着 两 倍 于 a 数量 的 b”“ 写 一 个 回 文 ”之 类 的 字符 串 。 用 正则 表达 式 
不 可 能 写 出 这 类 字符 串 。 不 过 好 在 我 的 网 络 疏 虫 至 今 还 从 来 没有 遇 到 过 这 种 需求 。 


js] 
Gr 
>= 
— 




























































































(dl) 
增加 一 个 坚 线 (|) 在 表达 式 里 表 


二 


示 “ 这 


格 的 4， 或 者 只 有 一 个 空格 ” 。 这 样 我 们 可 以 保证 字符 串 的 结尾 最 多 是 一 个 后 面 跟着 
格 的 do 





尝试 正则 表达 式 











关 重 要 的 。 
如 果 你 不 想 打 开 代 码 编辑 器 ， 


个 或 那个 "。 本 例 是 表示 “增加 一 个 后 面 跟 着 





在 学 习 书 写 正则 表达 式 的 时 候 ， 做 一 些 实验 感受 一 下 它们 如 何 工 作 ， 这 是 





HH 


至 


写 完 再 运行 程序 检查 正则 表达 式 的 运行 是 否 符 


合 预期 ， 那 么 你 可 以 去 RegexPal (http://regexpal.com/) 这 类 网 站 上 在 线 测试 


正则 表达 式 。 





正则 表达 式 在 实际 中 的 一 个 经 典 应 用 是 识别 邮箱 地 址 。 虽 然 不 同 邮箱 服务 器 的 邮箱 地 址 的 
具体 规则 不 尽 相 同 ， 但 是 我 们 还 是 可 以 创建 儿 条 通用 规则 。 每 条 规则 对 应 的 正则 表达 式 如 





下 表 第 2 列 所 示 。 


A w 


正则 表达 式 





1. 邮箱 地 址 的 第 一 部 分 至 少 包 括 一 种 内 容 : 大 
写字 母 、 小 写字 母 、 数 字 0~9、 点 号 (.)、 加 号 
(+) 或 下 划 线 C) 

















2. 之 后 ， 邮 箱 地 址 会 包含 一 个 @ 符号 


3. 在 符合 @ 之 后 ， 邮 箱 地 址 还 必须 至 少 包含 一 














[A-Za-z0-9\._+]+: 这 个 正 贝 
H AZ” 表示 


如 ， 它 





| 表达 式 简 写 非 














表示 “ 


舌 号 中 的 符号 里 


H 











任何 











号 ， 它 表示 “这 些 符 号 都 可 以 


1 次 ” 
@: 
有 且 仅 有 1 次 


[A-Za-z]+: 














可 能 只 在 域名 的 前 半音 











这 个 符号 很 直接 。@ 符号 必须 出 现在 中 间 











必须 有 一 个 点 号 (.) 





常 智慧 。 
“任意 A~Z 的 大 写字 母 ”。 
所 有 可 能 的 序列 和 符号 放 在 中 括号 (不 是 小 括 
个 "。 要 注意 后 面 的 加 
现 多 次 ， 且 至 少 出 现 


ri 


E 


例 
把 
rE 








(com|orgledu[net) : 这 样 列 出 了 邮箱 地 址 中 可 能 昌 








个 大 写 或 小 写字 母 用 字母 。 而 且 ， 至 少 有 一 个 字母 
4. 之 后 跟 一 个 点 号 〈.) V 在 域名 前 : 
5. 最 后 邮箱 地 址 用 com、org、edu、net 结尾 
(实际 上 ， 顶 级 域名 有 很 多 种 可 能 ,但 是 作为 示 ”点 号 之 后 的 字母 序列 
例 演示 这 四 个 后 级 够 用 了 )。 
把 上 面 的 规则 连接 起 来 ， 就 获得 了 完整 的 正则 表达 式 .: 


[A-Za-z0-9\._+]+@[A-Za-z]+\.(com|orgledulnet) 


MZ 





MA 


还 要 注意 一 些 细节 的 处 理 。 比 如 ， 








我 们 动手 开始 写 正 则 表达 式 的 时 候 ， 最 好 先 写 一 个 步骤 列表 描述 出 你 的 目标 字符 中 





日 
H 


结构 。 


你 识别 电话 号 码 的 时 候 ， 会 考虑 国家 代码 和 分 机 号 吗 ? 
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表 2-1 用 简单 的 说 明和 例子 列举 了 正则 表达 式 的 一 些 常 用 符号 。 这 个 列表 并 不 是 全 部 符 
号 ， 另 外 就 像 之 前 所 说 的 ， 可 能 在 不 同 编程 语言 中 会 遇 到 一 些 变化 。 但 是 ， 这 12 个 符号 
是 Python 的 正则 表达 式 中 最 常用 的 ， 可 以 用 来 查找 和 收集 绝 大 多 数 数据 类 型 。 


表 2-1: 正则 表达 式 常 用 符号 






































































































































符 号 含 M 例 T 匹配 结果 
* 匹配 前 面 的 字符 、 子 表达 式 或 括号 里 的 字符 0 次 a*b* aaaaaaaa，aaabbbbb， 
或 多 次 bbbbbb 
十 匹配 前 面 的 字符 、 子 表达 式 或 括号 里 的 字符 至 少 atb+ aaaaaaab，aaabbbbb， 
1 次 abbbbbb 
[] 匹配 任意 一 个 字符 (相当 于 “ 任 选 一 个 ”) [A-]* APPLE, CAPITALS, 
QWERTY 
O 表达 式 编组 〈 在 正则 表达 式 的 规则 里 编组 会 优先 (a*b)* aaabaab, abaaab, 
运行 ) ababaaaaab 
(n,n) 匹配 前 面 的 字符 、 子 表达 式 或 括号 里 的 字符 m 到 a{2,3}b{2,3} aabbb, aaabbb, aabb 
n 次 (包含 m 或 n) 
[^] 匹配 任意 一 个 不 在 中 括号 里 的 字符 [^5-Z]* apple, lowercase, 
qwerty 
| 匹配 任意 一 个 由 坚 线 分 割 的 字符 、 子 表达 式 GE b(alile)d bad，bid，bed 
意 是 坚 线 ， 不 是 大 字 字 母 1) 
匹配 任意 单个 字符 (包括 符号 、 数 字 和 空格 等 ) b.d bad, bzd, b$d, bd 
" 指 字符 串 开 始 位 置 的 字符 或 子 表达 式 ^a apple, asdf, a 
\ 转 义 字符 〈 把 有 特殊 含义 的 字符 转换 成 字面 形式 ) ALA JN 
$ 经 常用 在 正则 表达 式 的 末尾 ， 表 示 “ 从 字符 串 的 — [A-Z]*[a-z]*$ ABCabc，zzzyx，Bob 
末端 匹配 "。 如 果 不 用 它 ， 每 个 正则 表达 式 实 际 都 
带 着 “.*” 模 式 ， 只 会 从 字符 串 开 头 进行 匹配 。 这 
个 符号 可 以 看 成 是 ^ 符 号 的 反义词 
?! “不 包含 "。 这 个 奇怪 的 组 合 通常 放 在 字符 或 正则  ^((?!1[A-Z]).)*$  no-caps-here, $ymbOls 
表达 式 前 面 ， 表 示 字 符 不 能 出 现在 目标 字符 串 里 。 a4e f!ne 
这 个 符号 比较 难 用 ， 字 符 通 常会 在 字符 串 的 不 同 
部 位 出 现 。 如 果 要 在 整个 字符 串 中 全 部 排除 某 个 
字符 ， 就 加 上 ^ 和 $ 符号 
正则 表达 式 : 并 非 处 处 正则 ! 
正则 表达 式 的 标准 版 (本 书 使 用 的 版 本 ， 用 于 Python 和 BeautifulSoup) 是 基 
于 Perl 语法 演变 而 来 的 。 绝 大 多 数 主流 编程 语言 都 使 用 与 之 相同 或 近似 的 版 
本 。 但 是 ， 在 其 他 语言 中 使 用 这 些 正则 表达 式 时 需要 当心 ， 否 则 可 能 会 出 问 
题 。 有 些 语言 ， 比 如 Java， 其 正则 表达 式 就 和 Python 不 大 一 样 。 总 之 ， 遇 
到 问题 时 看 文档 ! 
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2.4 正则 表达 式 和 BeautifulSoup 


如 果 你 觉得 前 面 介绍 的 正则 表达 式 内 容 与 本 书 的 主题 有 点 儿 脱 市 ， 那 么 这 里 就 把 它们 连接 
起 来 。 在 抓 取 网 页 的 时 候 ，BeautifulSoup 和 正则 表达 式 总 是 配合 使 用 的 。 其 实 ， 大 多 数 支 
持 字 符 串 参数 的 国 数 (比如 ，find(id="aTagIdHere")) 都 可 以 用 正则 表达 式 实 现 。 


让 我 们 看 几 个 例子 ， 待 抓 取 的 网 页 是 http://www.pythonscraping.com/pages/page3.html。 





注意 观察 网 页 上 有 几 个 商品 图 片 一 一 它们 的 源 代码 形式 如 下 : 


«img srcz"../img/gifts/img3.jpg"» 





如 果 我 们 想 抓 取 所 有 图 片 的 URL 链接 ， 非 常 直 接 的 做 法 就 是 用 findAULC ung") 抓 取 所 有 
图 片 ， 对 吗 ? 但是， 有 个 问题 。 除 了 那些 明显 “多 余 的 ”图 片 (比如 ，LOGO) 之 外 ， 新 
式 的 网 站 里 都 有 一 些 隐藏 图 片 ， 用 于 网 页 布局 留 白 和 元 素 对 齐 的 空白 图 片 ， 以 及 一 些 不 容 
易 察 觉 到 的 图 片 标签 。 总 之 ， 你 不 能 仅 用 商品 图 片 来 统计 网 页 上 所 有 的 图 片 。 



























































而 且 网 页 的 布局 也 可 能 会 变化 ， 或 者 ， 因 为 某 些 原 因 ， 我 们 不 想 通 过 图 片 在 网 页 中 的 位 置 
来 查找 标签 。 那 么 当 你 想 抓 取 随 机 分 布 在 网 站 里 的 某 个 元 素 或 数据 时 ， 就 会 出 现 问 题 。 例 
如 ， 一 些 网 页 的 最 上 面 可 能 有 一 张 商 品 图 片 ， 但 是 在 另 一 些 网 页 上 没有 。 























解决 这 类 问题 的 办 法 ， 就 是 直接 定位 那些 标签 来 查找 信息 。 在 本 例 中 ， 我 们 直接 通过 商品 
图 片 的 文件 路 径 来 查找 : 








from urllib.request import urlopen 
from bs4 import BeautifulSoup 
import re 


html = urlopen("http://www.pythonscraping.com/pages/page3.html") 
bsObj = BeautifulSoup(html) 
images = bsObj.findAll("img",["src":re.compile("V. V. V imgMV/gifts/img.*V.jpg")]) 
for image in images: 
print(image["src"]) 








这 段 代 码 会 打印 出 图 片 的 相对 路 径 ， 都 是 以 ./img/gifts/img 开头 ， 以 jpg 结尾 ， 其 结果 如 
下 所 示 : 

../img/gifts/img1.jpg 

../img/gifts/img2.jpg 

../img/gifts/img3.jpg 

../img/gifts/img4.jpg 

../img/gifts/img6.jpg 
正则 表达 式 可 以 作为 BeautifulSoup 语句 的 任意 一 个 参数 ， 让 你 的 目标 元 素 查找 工作 极 具 灵 
活性 。 
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2.5 获取 属性 

到 目前 为 止 ， 我们 已 经 介绍 过 如 何 获 取 和 过 滤 标 签 ， 以 及 获取 标签 里 的 内 容 。 但 是 ， 在 网 
络 数据 采集 时 你 经 常 不 需要 查找 标签 的 内 容 ， 而 是 需要 查找 标签 属性 。 比 如 标签 <a> 指向 
的 URL 链接 包含 在 href 属性 中 ， 或 者 <img> 标签 的 图 片 文 件 包含 在 src 属性 中 ， 这 时 获 
取 标 签 属性 就 变 得 非常 有 用 了 。 


对 于 一 个 标签 对 象 ， 可 以 用 下 面 的 代码 获取 它 的 全 部 属 | 









































ME: 


myTag.attrs 


要 注意 这 行 代码 返回 的 是 一 个 Python 字典 对 象 ， 可 以 获取 和 操作 这 些 属性 。 比 如 要 获取 图 
片 的 资源 位 置 src， 可 以 用 下 面 这 行 代码 : 




















myImgTag.attrs["src"] 


2.6 Lambda 表 达 式 


如 果 在 学 校 读 的 是 计算 机 科学 专业 ， 那 么 可 能 学 过 Lambda 表达 式 ， 不 过 可 能 从 来 没有 用 
过 它 。 如 果 你 不 是 计算 机 科学 专业 ， 它 们 看 着 可 能 有 点 儿 陌 生 (或 者 只 是 “曾经 学 习 过 的 
东西 " )。 在 这 一 节 里 ， 虽 然 我 们 不 打算 深入 学 习 这 个 相当 实用 的 国 数 ， 但 是 会 用 几 个 例子 
来 演示 它们 是 如 何 用 在 网 络 数据 采集 中 的 。 


Lambda 表达 式 本 质 上 就 是 一 个 函数 ， 可 以 作为 其 他 函数 的 变量 使 用 ， 也 就 是 说 ， 一 个 函 
数 不 是 定义 成 f(x,，y)， 而 是 定义 成 f(g(x), y), FOX), h(x)) 的 形式 。 


BeautifulSoup 允许 我 们 把 特定 函数 类 型 当 作 findAll 函数 的 参数 。 唯 一 的 限制 条 件 是 这 些 
国 数 必 须 把 一 个 标签 作为 参数 且 返 回 结果 是 布尔 类 型 。BeautifulSoup 用 这 个 函数 来 评估 它 
遇 到 的 每 个 标签 对 象 ， 最 后 把 评估 结果 为 “ 真 ”的 标签 保留 ， 把 其 他 标签 剔除 。 


例如 ， 下 面 的 代码 就 是 获取 有 两 个 属性 的 标签 : 




































































soup.findAll(lambda tag: len(tag.attrs) == 2) 








这 行 代码 会 找 出 下 面 的 标签 











«div class-"body" id-"content"»«/div» 
«span style-"color:red" class-"title"»«/span» 


如 果 你 愿意 多 写 一 点 儿 代 码 ， 那 么 在 BeautifulSoup 里 用 Lambda 表达 式 选 择 标签 ， 将 是 正 
则 表达 式 的 完美 奉 代 方案 。 





— 





2.7 ”超越 BeautifulSoup 


虽然 本 书 全 部 用 BeautifulSoup (也 是 Python 里 最 受 欢 迎 的 HTML 解析 库 之 一 )， 但 它 并 不 
是 你 唯一 的 选择 。 如 果 BeautifulSoup 不 能 满足 你 的 需求 ， 你 可 以 看 看 其 他 的 库 。 





























* lxml 
这 个 库 (http://Ixml.de/) 可 以 用 来 解析 HTML 和 XML 文档 ， 以 非常 底层 的 实现 而 闻名 
于 世 ， 大 部 分 源 代码 是 用 C 语言 写 的 。 虽 然 学 习 它 需要 花 一 些 时 间 (其 实学 习 曲 线 越 
陡峭 ， 表 明 你 可 以 越 快 地 学 会 它 )， 但 它 在 处 理 绝 大 多 数 HTML 文档 时 速度 都 非常 快 。 
































LÍ 








* HTML parser 








这 是 Python 自 带 的 解析 库 (https://docs.python.org/3/library/html.parser.html) 。 因 为 它 不 
用 安装 (RER J Python 就 有 ) ， 所 以 可 以 很 方便 地 使 用 。 
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开始 采集 








到 目前 为 止 ， 本 书 的 例子 都 只 是 处 理 单个 静态 页 面 ， 只 能 算是 人 为 简化 的 例子 〈 使 用 作者 
的 网 站 页 面 )。 从 本 章 开 始 ， 我 们 会 看 到 一 些 现实 问题 ， 需 要 用 殿 虫 遍历 多 个 页 面 甚 至 多 
个 网 站 。 


ZALAU RÉRE (Web crawler) 是 因为 它们 可 以 治 着 网 络 疏 行 。 它 们 的 本 质 就 是 一 种 递 
归 方 式 。 为 了 找到 URL 链接 ， 它 们 必须 首先 获取 网 页 内 容 ， 检 查 这 个 页 面 的 内 容 ， 再 寻 
找 另 一 个 URL， 然 后 获取 URL 对 应 的 网 页 内 容 ， 不 断 循环 这 一 过 程 。 


不 过 要 注意 的 是 ， 你 可 以 这 样 重复 采集 网 页 ， 但 并 不 意味 着 你 一 直 都 应 该 这 么 做 。 当 你 需 
要 的 所 有 数据 都 在 一 个 页 面 上 时 ， 前 面 例子 中 的 疏 虫 就 足以 解决 问题 了 。 使 用 网 络 疏 虫 的 
时 候 ， 你 必须 非常 谨慎 地 考虑 需要 消耗 多 少 网 络 流量 ， 还 要 尽力 思考 能 不 能 让 采集 目标 的 
服务 器 负载 更 低 一 些 。 


3.1 遍历 单个 域名 


即使 你 疫 听 说 过 “维基 百科 六 度 分 隔 理论 "， 也 很 可 能 听 过 “ 凯 文 ， 贝 肯 (Kevin Bacon) 
的 六 度 分 隔 值 游戏 "。 在 这 两 个 游戏 中 ， 都 是 把 两 个 不 相干 的 主题 (维基 百科 里 是 用 词 条 
之 间 的 连接 ， 凯 文 ， 贝 骨 的 六 度 分 隔 值 游戏 是 用 出 现在 同一 部 电影 中 的 演员 来 连接 ) 用 一 
个 总 数 不 超 过 六 条 的 主题 连接 起 来 (包括 原来 的 两 个 主题 ) 。 


比如 ， 埃 里 殉 ， 艾 德尔 和 布 兰 登 ， 弗 雷 译 都 出 现在 电影 《 骑 警 杜 德 雷 》 里 ， 布 兰 登 ， 弗 
雷 泽 又 和 凯 文 ， 贝 肯 都 出 现在 电影 《我 呼吸 的 空气 》 里 。' 因此， 根据 这 两 个 条 件 MR 









































iE 1: 感谢 The Oracle of Bacon (http://oracleofbacon.org/index.php) 的 存在 ,满足 了 我 对 这 类 关系 链 的 好 奇 心 。 
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里 克 ， 艾 德尔 到 凯 文 ， 贝 上 骨 的 链条 主题 长 度 只 有 3。 


我 们 将 在 本 节 创 建 一 个 项 目 来 实现 “维基 百科 六 度 分 隔 理论 ”的 查找 方法 。 也 就 是 说 ， 我 们 
要 实现 从 埃 里 克 ， 艾 德 尔 的 词 条 页 面 (https;//en.wikipedia.org/wik/Eric Idle) 开始 ， 经 过 最 
少 的 链接 点 击 次 数 找到 凯 文 ， 贝 骨 的 词 条 页 面 (https://en.wikipedia.org/wiki/Kevin Bacon). 
































这 么 做 对 维基 百科 的 服务 器 负载 有 多 大 影响 ? 

根据 维基 媒体 基金 会 (维基 百科 归属 的 组 织 ) 的 统计 ， 网 站 每 秒 钟 会 收 到 大 约 2500 
次 点 击 ， 其 中 超过 99% 的 点 击 都 是 指向 维基 百科 域名 (详情 请 见 “ 维 基 媒 体 统计 图 ” 
(Wikimedia in Figures) 里 的 “流量 数据 ”(Traffic Volume) 部 分 内 容 ，https://meta. 
wikimedia.org/wiki/Wikimedia_in_figures_-_Wikipedia#Traffic_volume)。 因 为 网 站 流量 
很 大 ， 所 以 你 的 网 络 爬 虫 不 可 能 对 维基 百科 的 负载 有 显著 影响 。 不 过 ， 如 果 你 频繁 地 
运行 本 书 的 代码 ， 或 者 自己 在 做 项 目 采集 维基 百科 的 词 条 ， 那 么 希望 你 能 够 向 维基 媒 
体 基 金 会 提供 一 点 捐赠 (https://wikimediafoundation.org/wiki/Ways to Give) 一 一 即 
使 是 很 少 的 钱 来 补偿 你 占用 的 服务 器 资源 ， 算 是 帮助 维基 百科 这 个 教育 资源 供 其 他 人 
使 用 。 

















你 应 该 已 经 知道 如 何 写 一 段 获取 维基 百科 网 站 的 任何 页 面 并 提取 页 面 链 接 的 Python 代码 了 : 























from urllib.request import urlopen 
from bs4 import BeautifulSoup 


html = urlopen("http://en.wikipedia.org/wiki/Kevin Bacon") 
bsObj = BeautifulSoup(html) 
for link in bsObj.findAll("a"): 
if 'href' in link.attrs: 
print(link.attrs['href']) 


如 果 你 观察 生成 的 一 列 链接 ， 就 会 看 到 你 想 要 的 所 有 词 条 链接 都 在 里 面 :“Apollo 13" 
“Philadelphia” 和 “Primetime Emmy Award ” ， 等 等 。 但 是 ， 也 有 一 些 我 们 不 需要 的 链接 ， 


/ [wikimediafoundation.org/wiki/Privacy policy 
/[en.wikipedia.org/wiki/Wikipedia:Contact us 


A 
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看 和 其 他 不 包含 词 条 的 页 面 的 链接 : 





























= 














/wiki/Category:Articles_with_unsourced_statements_from_April_2014 
/wiki/Talk:Kevin_Bacon 





最 近 我 有 个 朋友 在 做 一 个 类 似 维基 百科 采集 这 样 的 项 目 ， 他 说 为 了 判断 维基 百科 的 内 链 是 
否 链接 到 一 个 词 条 ， 他 写 了 一 个 很 大 的 过 普 国 数 ， 超 过 100 行 代码 。 不 幸 的 是 ， 可 能 在 项 
目 启动 的 时 候 ， 他 没有 花 时 间 去 比较 “ 词 条 链接 ”和 “其 他 链接 ”的 差异 ， 也 可 能 他 后 来 
发 现 了 那个 技巧 。 如 果 你 仔细 观察 那些 指向 词 条 页 面 (不 是 指向 其 他 内 容 页 面 ) 的 链接 ， 






































会 发 现 它们 都 有 三 个 共同 点 : 


。 它们 都 在 id 是 bodyContent 的 div 标签 里 
* URL 链接 不 包含 分 号 
* URL 链接 都 以 /wiki 开头 


我 们 可 以 利用 这 些 规则 稍微 调整 一 下 代码 来 获取 词 条 链接 : 


from urllib.request import urlopen 
from bs4 import BeautifulSoup 
import re 


html = urlopen("http://en.wikipedia.org/wiki/Kevin Bacon") 
bsObj = BeautifulSoup(html) 
for link in bsObj.find("div", ("id":"bodyContent"J).findAll("a", 
hrefzre.compile("^(/wiki/)((2!:).)*$")): 
if 'href' in link.attrs: 
print(link.attrs['href']) 











如 果 你 运行 代码 ， 就 会 看 到 维基 百科 上 饥 文 ， 贝 骨 词 条 里 所 有 指向 其 他 词 条 的 链接 。 


当然 ， 写 程序 来 找 出 这 个 静态 的 维基 百科 词 条 里 所 有 的 词 条 链接 很 有 趣 ， 不 过 没什么 实际 
用 处 。 我 们 需要 让 这 段 程序 更 像 下 面 的 形式 。 


。 一 个 函数 getLinks, 可 以 用 维基 百科 词 条 /wiki/< 词 条 名 称 > 形式 的 URL 链接 作为 参数 ， 
然后 以 同样 的 形式 返回 一 个 列表 ， 里 面包 含 所 有 的 词 条 URL 链接 。 

。 一 个 主 函 数 ， 以 某 个 起 始 词 条 为 参数 调用 getLinks， 再 从 返回 的 URL 列表 里 随机 选择 
一 个 词 条 链接 ， 再 调用 getLinks， 直 到 我 们 主动 停止 ,或 者 在 新 的 页 面 上 没有 词 条 链接 
了 ， 程 序 才 停止 运行 。 
























































完整 的 代码 如 下 所 示 : 


from urllib.request import urlopen 
from bs4 import BeautifulSoup 
import datetime 

import random 

import re 


random.seed(datetime.datetime.now()) 
def getLinks(articleUrl): 
html = urlopen("http://en.wikipedia.org"«articleUrl) 
bsObj = BeautifulSoup(html) 
return bsObj.find("div", ("id":"bodyContent"3).findAll("a", 
hrefzre.compile("^(/wiki/)((?2!:).)*$")) 
links = getLinks("/wiki/Kevin Bacon") 
while len(links) » 0: 
newArticle - links[random.randint(0, len(links)-1)].attrs["href"] 
print(newArticle) 
links = getLinks(newArticle) 
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导入 需要 的 Python 库 之 后 ， 程 序 首先 做 的 是 用 系统 当前 时 间 生 成 一 个 随机 数 生 成 器 。 这 
可 以 保证 在 每 次 程序 运行 的 时 候 ， 维 基 百 科 词 条 的 选择 都 是 一 个 全 新 的 随机 路 径 。 





样 





伪 随 机 数 和 随机 数 种 子 


随机 选择 每 一 页 上 的 一 个 词 条 链接 。 但 是 ， 用 随机 数 的 时 候 需 要 格外 小 心 。 


是 一 个 难题 。 大 多 数 随机 数 算法 部 努力 创造 一 种 呈 均 匀 分 布 且 难以 预测 的 数据 序列 ， 


每 次 将 产生 同样 的 “随机 ” 数 序 列 ， 因 此 我 用 系统 时 间作 为 随机 数 序列 生成 的 起 点 。 
这 样 做 会 让 程序 运行 的 时 候 更 具有 随机 性 


Twister) 算法 (https://en.wikipedia.org/wiki/Mersenne Twister), ， 它 产生 的 随机 数 很 难 
预测 且 呈 均匀 分 布 ， 就 是 有 点 儿 耗 葛 CPU 资源 。 真 正好 的 随机 数 可 不 便宜 ! 





在 前 面 的 示例 中 ， 为 了 能 够 连续 地 随机 遍历 维基 百科 ， 我 用 Python 的 随机 数 生 成 器 来 


虽然 计算 机 很 擅长 做 精确 计算 ， 但 是 它们 处 理 随 机 事件 时 非常 不 靠 谱 。 因 此 ， 随 机 数 


但 是 在 算法 初始 化 阶段 都 需要 提供 随机 数 “ 种 子 ” (random seed) 。 而 完全 相同 的 种 子 


其 实 ，Python 的 伪 随 机 数 (pseudorandom number) 生成 器 用 的 是 梅森 旋转 (Mersenne 








然后 ， 我 们 定义 getLinks 函数 ， 其 参数 是 维基 百科 词 条 页 面 中 /wiki/< 词 条 名 称 > 形式 


的 


URL 链接 ， 前 面 加 上 维基 百科 的 域名 ，http://en.wikipedia.org， 再 用 域名 中 的 网 页 获得 


一 个 BeautifulSoup 对 象 。 之 后 用 前 面 介绍 过 的 参数 抽取 一 列 词 条 链接 所 在 的 标签 a 并 返 
它们 。 
程序 的 主 国 数 首先 把 起 始 页 面 https://en.wikipedia.org/wiki/Kevin_Bacon 里 的 词 条 链接 列 


(links 变量 ) 设置 成 链接 列表 。 然 后 用 一 个 循环 ， 从 页 面 中 随机 找 一 个 词 条 链接 标签 并 
取 href 属性 ， 打 印 这 个 页 面 链接 ， 再 把 这 个 链接 传 入 getLinks 函数 ， 重 新 获取 新 的 链 
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问题 还 有 一 点 儿 工作 得 做 。 我 们 还 应 该 存储 URL 链接 数据 并 分 析 数 据 。 关 
卖 的 解决 办 法 ， 请 参考 第 5 章 内 容 。 
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异常 处 理 


虽然 为 了 方便 起 见 ， 我 们 在 这 些 示例 中 忽略 了 大 多 数 异 常 处 理 过 程 ， 但 是 要 
注意 问题 随时 可 能 发 生 。 例 如 ， 维 基 百 科 改 变 了 bodyContent 标签 的 名 称 怎 
么 办 呢 ? (提示 : 那 时 代码 就 会 央视 。) 























因此 ， ji quiste dO nd 但 是 要 真正 成 
为 自动 化 产品 代码 ， 还 需要 增加 更 多 的 异常 处 理 。 关 于 异常 处 理 的 更 多 信 
息 ， 请 参考 第 
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2 ”采集 整个 网 站 

上 一 节 内 容 里 ， 我 们 实现 了 在 一 个 网 站 上 随机 地 从 一 个 链接 跳 到 另 一 个 链接 。 但 是 ， 如 
你 需要 系统 地 把 整个 网 站 按 目 孙 分 类 ， 或 者 要 搜索 网 站 上 的 每 一 个 页 面 ， 怎 么 办 ? 那 就 
采集 整个 网 站 ， 那 是 一 种 非常 耗费 内 存 资 源 的 过 程 ， 尤 其 是 处 理 大 型 网 站 时 ， 最 合适 的 
有 具 就 是 用 一 个 数据 库 来 储存 采集 的 资产。 但是， 我 们 可 以 掌握 这 类 工具 的 行为 ， 并 不 需 
通过 大 规模 地 运行 它们 。 要 了 解 更 多 关于 数据 库 使 用 的 相关 知识 ， 请 参考 第 5 章 。 























你 可 能 听 说 过 深 网 (deep Web), ÈR (dark Web) 或 隐藏 网 络 (hidden Web) 之 类 的 
术语 ， 尤 其 是 在 最 近 的 媒体 中 。 它 们 是 什么 意思 呢 ? 


过 这 些 内 容 超出 了 本 书 的 范围 。 
和 有 瞳 网 不 同 ， 深 网 是 相对 容易 采集 的 。 实 际 上 ， 本 书 的 很 多 工具 部 是 在 教 你 如 何 采集 


深 网 和 暗 网 


深 网 是 网 络 的 一 部 分 ， 与 浅 网 (surface Web) 对 立 。 浅 网 是 互联 网 上 搜索 引 营 可 以 抓 
到 的 那 部 分 网 络 。 据 不 完全 统计 ， 互 联网 中 其 实 约 90% 的 网 络 都 是 深 网 。 因 为 谷歌 不 
能 做 像 表单 提交 这 类 事情 ， 也 找 不 到 那些 没有 直接 链接 到 顶层 域名 上 的 网 页 ， 或 者 因 
为 有 robots.txt 禁止 而 不 能 查看 网 站 ， 所 以 浅 网 的 数量 相对 深 网 还 是 比较 少 的 。 

瞳 网 ， 也 被 称 为 Darknet 或 dark Internet， 完 全 是 另 一 种 “怪兽 ”。 它 们 也 建立 在 已 有 
的 网 络 基础 上 ， 但 是 使 用 Tor 客户 端 ， 带 有 运行 在 HITTP 之 上 的 新 协议 ,提供 了 一 个 
信息 交换 的 安全 隧道 。 这 类 有 瞳 网 页 面 也 是 可 以 采集 的 ， 就 像 你 采集 其 他 网 站 一 样 ， 不 





那些 Google 爬虫 机 器 人 不 能 获取 的 深 网 信息 。 





那 
历 





么 ， 什 么 时 候 采 集 整 个 网 站 是 有 用 的 ， 而 什么 时 候 采 集 整 个 网 站 又 是 有 和 害 无 益 的 呢 ?” 遍 
整个 网 站 的 网 络 数据 采集 有 许多 好 处 。 


生成 网 站 地 图 

几 年 前 ， 我 曾经 遇 到 过 一 个 问题 : 一 个 重要 的 客户 想 对 一 个 网 站 的 重新 设计 方案 进行 效 
有 果 评 估 ， 但 是 不 想 让 我 们 公司 进入 他 们 的 网 站 内 容 管理 系统 (CMS)， 也 没有 一 个 公开 
可 用 的 网 站 地 图 。 我 就 用 仆 虫 采集 了 整个 网 站 ,收集 了 所 有 的 链接 ， 再 把 所 有 的 页 面 整 
理 成 他 们 网 站 实际 的 形式 。 这 让 我 很 快 找 出 了 网 站 上 以 前 不 曾 留意 的 部 分 ， 并 准确 地 计 
算出 需要 重新 设计 多 少 网 页 ， 以 及 可 能 需要 移动 多 少 内 容 。 














收集 数据 

我 的 另 一 个 客户 为 了 创建 一 个 专业 垂直 领域 的 搜索 平台 ， 想 收集 一 些 文章 〈 故 事 、 博 
文 、 新 闻 等 )。 虽 然 这 些 网 站 采集 并 不 费劲 ， 但 是 它们 需要 扑 虫 有 足够 的 深度 (我们 有 
意 收 集 数 据 的 网 站 不 多 )。 于 是 我 就 创建 了 一 个 陈 虫 递归 地 遍历 每 个 网 站 ， 只 收集 那些 
网 站 页 面 上 的 数据 。 









































一 个 常用 的 费时 的 网 站 采集 方法 就 是 从 顶级 页 面 开始 〈 比 如 主页 ) ， 然 后 搜索 页 面 上 的 所 
有 链接 ， 形 成 列表 。 再 去 采集 这 些 链 接 的 每 一 个 页 面 ， 然 后 把 在 每 个 页 面 上 找到 的 链接 形 
成 新 的 列表 ， 重 复 执 行 下 一 轮 采 集 。 


很 明显 ， 这 是 一 个 复杂 度 增 长 很 快 的 情形 。 假 如 每 个 页 面 有 10 个 链接 ， 网 站 上 有 5 个 页 
面 深度 (一 个 中 等 规模 网 站 的 主流 深度 )， 那 么 如 果 你 要 采集 整个 网 站 ， 一共 得 采集 的 网 
页 数量 就 是 105， 即 100 000 个 页 面 。 不 过 ， 虽 然 “5 个 页 面 深 度 ， 每 页 10 个 链接 ”是 网 
站 的 主流 配置 ， 但 其 实 很 少 有 网 站 真 的 有 100 000 甚至 更 多 的 页 面 。 这 是 因为 很 大 一 部 分 
内 链 都 是 重复 的 。 

为 了 避免 一 个 页 面 被 采集 两 次 ， 链 接 去 重 是 非常 重要 的 。 在 代码 运行 时 ， 把 已 发 现 的 所 有 
链接 都 放 到 一 起 ， 并 保存 在 方便 查询 的 列表 里 (下文 示例 指 Python 的 集合 set 类 型 ) 。 只 
有 “新 ”链接 才 会 被 采集 ， 之 后 再 从 页 面 中 搜索 其 他 链接 : 






















































































from urllib.request import urlopen 
from bs4 import BeautifulSoup 
import re 


pages - set() 
def getLinks(pageUrl): 
global pages 
html = urlopen("http://en.wikipedia.org"-«pageUrl) 
bsObj = BeautifulSoup(html) 
for link in bsObj.findAll("a", hrefzre.compile("^(/wiki/)")): 
if 'href' in link.attrs: 
if link.attrs['href'] not in pages: 
# 我 们 遇 到 了 新 页 面 
newPage = link.attrs['href'] 
print(newPage) 
pages .add(newPage) 
getLinks(newPage) 


getLinks("") 


为 了 全 面 地 展示 这 个 网 络 数据 采集 示例 是 如 何 工作 的 ， 我 降低 了 在 前 面 例子 里 使 用 的 “只 
寻找 内 链 ”的 标准 。 不 再 限制 疏 虫 采集 的 页 面 范 围 ， 只 要 遇 到 页 面 就 查找 所 有 以 /wiki/ JF 
头 的 链接 ， 也 不 考虑 链接 是 不 是 包含 分 号 。( 提 示 : 词 条 链接 不 包含 分 号 ， 而 文档 上 传 页 
面 、 讨 论 页 面 之 类 的 页 面 URL 链接 都 包含 分 号 。) 


一 开始 ， 用 getLinks 处 理 一 个 空 URL， 其 实 是 维基 百科 的 主页 ， 因 为 在 函数 里 空 URL 就 
是 http://en.wikipedia.org。 然 后 ， 遍 历 首 页 上 每 个 链接 ， 并 检查 是 否 已 经 在 全 局 变量 
集合 pages HMT (已 经 采集 的 页 面 集合 )。 如 果 不 在 ， 就 打印 到 屏幕 上 ， 并 把 链接 加 入 
pages 集合 ， 再 用 getLinks 递归 地 处 理 这 个 链接 。 




































































关于 递归 的 警告 


这 个 警告 在 软件 开发 书籍 里 很 少 提 到 ， 但 是 我 觉得 你 应 该 注意 : 如 果 递 归 运 
行 的 次 数 非常 多 ， 前 面 的 递归 程序 就 很 可 能 崩溃 。 








Python 默认 的 递归 限制 (程序 递归 地 自我 调用 次 数 ) 是 1000 次 。 因 为 维基 
百科 的 网 络 链接 浩如烟海 ， 所 以 这 个 程序 达到 递归 限制 后 就 会 停止 ， 除 非 你 
设置 一 个 较 大 的 递归 计数 器 ， 或 用 其 他 手段 不 让 它 停止 。 
























































对 于 那些 链接 深度 少 于 1000 的 “普通 ”网 站 ， 这 个 方法 通常 可 以 正常 运行 ， 
一 些 奇怪 的 异常 除外 。 例 如 ， 我 曾经 遇 到 过 一 个 网 站 ， 有 一 个 在 生成 博文 内 
链 的 规则 。 这 个 规则 是 “当前 页 面 把 /blog/title of blog.php 加 到 它 后 面 ， 作 
为 本 页 面 的 URL 链接 ”。 


问题 是 它们 可 能 会 把 /blog/title of. blog.php 加 到 一 个 已 经 有 /blog/ 的 URL 上 
面 了 。 因 此 ， 网 站 就 多 了 一 个 /blog/。 最 后 ， 我 的 惟 虫 找到 了 这 样 的 URL 链 
TE: /blog/blog/blog/blog.../blog/title of blog.php。 





后 来 ， 我 增加 了 一 些 条 件 ， 对 可 能 导致 无 限 循环 的 部 分 进行 检查 ， 确 保 那些 
URL PEKLA., Hæ, WREAK RARE, ERR RAA 





收集 整个 网 站 数据 

当然 ， 如 果 只 是 从 一 个 页 面 跳 到 另 一 个 页 面 ， 那 么 网 络 疏 虫 是 非常 无 聊 的。 为 了 有 效 地 使 
用 它们 ， 在 用 陈 虫 的 时 候 我 们 需要 在 页 面 上 做 些 事情 。 让 我 们 看 看 如 何 创建 一 个 疏 虫 来 收 
集 页 面 标题 、 正 文 的 第 一 个 段落 ， 以 及 编辑 页 面 的 链接 (如 果 有 的 话 ) 这 些 信息 。 


















































和 往常 一 样 ， 决 定 如 何 做 好 这 些 事情 的 第 一 步 就 是 先 观察 网 站 上 的 一 些 页 面 ， 然 后 拟定 一 
个 采集 模式 。 通 过 观察 几 个 维基 百科 页 面 ， 包 括 词 条 和 非 词 条 页 面 ， 比 如 隐私 策略 之 类 的 
页 面 ， 就 会 得 出 下 面 的 规则 。 
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。 所 有 的 标题 (所 有 页 面 上 ,不论 是 词 条 页 面 、 编 辑 历史 页 面 还 是 其 他 页 面 ) 都 是 在 
h1 一 span 标签 里 ， 而 且 页 面 上 只 有 一 个 hi 标签。 

。 前 面 提 到 过 ， 所 有 的 正文 文字 都 在 divitbodyContent 标签 里 。 但 是 ， 如 果 我 们 想 更 
进一步 获取 第 一 段 文字 ， 可 能 用 div#mw-content-text 一 p 更 好 (只 选择 第 一 段 的 标 
签 )。 这 个 规则 对 所 有 页 面 都 适用 ， 除 了 文件 页 面 ( 例 如 ，https://en.wikipedia.org/wiki/ 
File:Orbit of 274301, Wikipedia.svg) ,页 面 不 包含 内 容 文字 (content text) 的 部 分 内 容 。 

。 编辑 链接 只 出 现在 词 条 页 面 上 。 如 果 有 编辑 链接 ， 都 位 于 Li#ca-edit 标签 的 Li#ca- 
edit 一 span > a Hi jfi], 


JERAR, RETE RT LAE v AEEA MAC TE 〈 至 少 是 数据 打印 ) 的 组 合 程序 : 
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from urllib.request import urlopen 
from bs4 import BeautifulSoup 
import re 


pages - set() 
def getLinks(pageUrl): 
global pages 
html = urlopen("http://en.wikipedia.org'"-«pageUrl) 
bsObj = BeautifulSoup(html) 
try: 
print(bsObj.hi.get text()) 
print(bsObj.find(id-"mw-content-text").findAll("p")[0]) 
print(bsObj.find(idz"ca-edit").find("span").find("a").attrs['href']) 
except AttributeError: 


print( "页 面 缺少 一 些 属性 ! 不 过 不 用 担心 ! ") 




















for link in bsObj.findAll("a", hrefzre.compile("^(/wiki/)")): 
if 'href' in link.attrs: 
if link.attrs['href'] not in pages: 
# 我 们 遇 到 了 新 页 面 
newPage = link.attrs['href'] 
print("---------------- \n"+newPage) 
pages .add(newPage) 
getLinks(newPage) 
getLinks("") 








这 个 for 循环 和 原来 的 采集 程序 基本 上 是 一 样 的 〈 除 了 打印 一 条 虚线 来 分 离 不 同 的 页 面 
容 之 外 )。 


3 











因为 我 们 不 可 能 确保 每 一 页 上 都 有 所 有 类 型 的 数据 ， 所 以 每 个 打印 语句 都 是 按照 数据 在 页 
面 上 出 现 的 可 能 性 从 高 到 低 排列 的 。 也 就 是 说 ，<h1> 标题 标签 会 出 现在 每 一 页 上 (只 要 能 
识别 ， 无 论 哪 一 页 都 有 )， 所 以 我 们 首先 试 着 获取 它 的 数据 。 正 文 内 容 会 出 现在 大 多 数 页 
面 上 (除了 文件 页 面 )， 因 此 是 第 二 个 获取 的 数据 。“ 编 辑 ” 按 钮 只 出 现在 标题 和 正文 内 容 
都 已 经 获取 的 页 面 上 ， 但 不 是 所 有 这 类 页 面 上 都 有 ， 所 以 我 们 最 后 打印 这 类 数据 。 


























不 同 模式 应 对 不 同 需求 


在 一 个 异常 处 理 语 句 中 包 囊 多 行 语句 显然 是 有 点 儿 和 危险 的 。 首 先 ， 你 没 法 儿 
识别 出 究竟 是 哪 行 代码 出 现 了 异常 。 其 次 ， 如 果 有 个 页 面 没有 前 面 的 标题 内 
容 ， 却 有 “编辑 ”按钮 ， 那 么 由 于 前 面 已 经 发 生 异常 ， 后 面 的 “编辑 ”按钮 
链接 就 不 会 出 现 。 但 是 ， 这 种 按照 网 站 上 信息 出 现 的 可 能 性 高 低 进行 排序 的 
方法 对 许多 网 站 都 是 可 行 的 ， 偶 而 会 丢失 一 点 儿 数据 ， 只 要 保存 详细 的 日 志 
就 不 是 什么 问题 了 。 
































你 可 能 还 发 现在 到 目前 为 止 所 有 的 例子 中 ， 我 们 都 没有 “收集 ”那些 “打印 ”出 来 的 数 
据 。 显 然 ， 命 令 行 里 显示 的 数据 是 很 难 进一步 处 理 的 。 我 们 将 在 第 5 章 继续 介绍 信息 储存 
和 数据 库 创 建 的 内 容 。 








3.3 通过 互联 网 采集 


每 次 在 我 做 网 络 数据 采集 的 演讲 时 ， 总 有 人 故意 问 我 :“ 你 怎么 建 一 个 谷歌 网 站 ? ”我 的 
回答 通常 会 包含 两 点 :“ 首 先 ， 你 得 有 几 十 亿美 元 能 够 买 得 起 世界 上 最 大 的 数据 仓库 ， 并 
把 它们 隐秘 地 放 在 世界 各 地 。 其 次， 你 得 写 一 个 网 络 疏 虫 。 

谷歌 在 1994 年 成 立 的 时 候 ， 就 是 两 个 斯 坦 福 大 学 的 毕业 生 用 一 个 陈旧 的 服务 器 


F 
Python 网 络 仆 虫 。 现 在 你 应 该 知道 了 ， 你 已 经 正式 拥有 了 成 为 下 一 个 科技 亿 万 富 兮 需要 的 
IAT! 











一 个 


说 句 实在 话 ， 网 络 疏 虫 位 于 许多 新 式 的 网 络 技术 领 域 彼 此 交叉 的 中 心地 带 ， 而 且 你 使 用 它 
们 也 不 需要 一 个 大 型 数据 仓库 。 要 实现 任何 跨 站 的 数据 分 析 ， 你 只 要 构建 出 可 以 从 互联 网 
上 无 数 的 网 页 里 解析 和 储存 数据 的 扑 虫 就 可 以 了 。 


就 像 乙 前 的 例子 一 样 ， 我 们 后 面 要 建立 的 网 络 爬 虫 也 是 顺 着 链接 从 一 个 页 面 跳 到 另 一 个 页 
看 ， 描 绘 出 一 张 网 络 地 图 。 但 是 这 一 次 ， 它 们 不 再 忽略 外 链 ， 而 是 跟着 外 链 跳 转 。 我 们 想 
看 看 爬虫 是 不 是 可 以 记录 我 们 浏览 过 的 每 一 个 页 面 上 的 信息 ， 这 将 是 一 个 新 的 挑战 。 相 比 
我 们 之 前 做 的 单个 域名 采集 ， 互 联网 采集 要 难得 多 一 一 不 同 网 站 的 布局 过 然 不 同 。 这 就 意 
味 着 我 们 必须 在 要 寻找 的 信息 以 及 查找 方式 上 都 极 具 灵活 性 。 
































不 知 前 方 水 深浅 














下 一 节 的 代码 可 以 到 达 互 联网 的 任何 位 置 。 如 果 我 们 已 经 掌握 了 解决 “维基 
百科 六 度 分 隔 理 论 ” 的 方法 ， 那 么 完全 有 可 能 从 一 个 像 芝 麻 街 http://www. 
sesamestreet.org/ 那样 的 网 站 ， 经 过 几 跳 就 到 达 一 些 非 主流 网 站 。 

















如 果 读 者 是 小 朋友 ， 请 在 运作 代码 前 咨询 一 下 爸 妈 。 对 那些 带 有 敏感 题材 或 
有 宗教 限制 的 人 来 说 ， 茶 些 网 站 是 禁止 浏览 的 ， 阅 读 代码 示例 没 问 题 ， 但 是 
运行 代码 的 时 候 请 格外 小 心 。 





在 你 写 候 虫 随意 跟随 外 链 跳 转 之 前 ， 请 问 自己 儿 个 问题 。 


。 我 要 收集 哪些 数据 ?这 些 数 据 可 以 通过 采集 几 个 已 经 确定 的 网 站 (永远 是 最 简单 的 做 法 ) 
完成 吗 ? 或 者 我 的 疏 虫 需要 发 现 那些 我 可 能 不 知道 的 网 站 吗 ? 

。 当 我 的 限 虫 到 了 某 个 网 站 ， 它 是 立即 顺 着 下 一 个 出 站 链接 跳 到 一 个 新 网 站 ， 还 是 在 网 站 
上 呆 一 会 儿 ， 深入 采集 网 站 的 内 容 ? 

。 有 没有 我 不 想 采 集 的 一 类 网 站 ?我 对 非 美 文 网 站 的 内 容 感 兴趣 吗 ? 

。 如 果 我 的 网 络 扑 虫 引 起 了 某 个 网 站 网 管 的 怀疑 ， 我 如 何 避 免 法 律 责 任 ? (关于 这 个 问题 
的 更 多 信息 请 参考 附录 C.) 

















几 个 灵活 的 Python 函数 组 合 起 来 就 可 以 实现 不 同类 型 的 网 络 疏 虫 ， 用 不 超过 50 行 代码 就 
可 轻松 地 写 出 来 : 


from urllib.request import urlopen 


from bs4 import BeautifulSoup 


import re 
import da 
import ra 


pages = s 


tetime 
ndom 


et() 


random.seed(datetime.datetime.now()) 


# 获取 页 面 所 有 内 链 的 列表 
def getInternallinks(bsObj, includeUrl): 


inter 


# HU 


nallinks = [] 

















所 有 以 "/" 开 头 的 链接 
for link in bsObj.findAll( 


a, 


hrefzre.compile("^(/]|.*"*includeUrl«")")): 


if link.attrs['href'] is not None: 
if link.attrs['href'] not in internallinks: 
internallinks.append(link.attrs['href']) 


retur 


n internallinks 


# 获取 页 面 所 有 外 链 的 列表 
def getExternallinks(bsObj, excludeUrl): 


exter 


# HU 


nallinks = [] 
HERI "http "wu" 
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for link in bsObj.findAll("a", 


hrefzre.compile("^(http|www)((?! "*excludeUrl«").)*$")): 


不 包 


AM, 
E — 





if link.attrs['href'] is not None: 
if link.attrs['href'] not in externallinks: 
externallinks.append(link.attrs['href']) 


retur 


def split 


n externallinks 


Address(address): 


前 URL 的 链接 


addressParts = address.replace("http://", "").split("/") 


retur 


n addressParts 


def getRandomExternallink(startingPage): 
html = urlopen(startingPage) 


bsObj = BeautifulSoup(html) 
externallinks - getExternallinks(bsObj, splitAddress(startingPage)[0]) 
if len(externallinks) -- 0: 


internallinks - getInternallinks(startingPage) 
return getNextExternallink(internallinks[random.randint(0, 
len(internallinks)-1)]) 


else: 


return externallinks[random.randint(0, len(externallinks)-1)] 


def followExternalOnly(startingSite): 
externallink = getRandomExternallink("http://oreilly.com") 
print(" 随 机 外 链 是 :"+externaLLink) 
followExternalOnly(externalLink) 


followExternalOnly("http://oreilly.com") 

















上 面 这 个 程序 从 http://oreilly.com 开始 ， 然 后 随机 地 从 一 个 外 链 跳 到 另 一 个 外 链 。 输 出 的 
结果 如 下 所 示 : 


随机 外 链 是 :http://igniteshow.com/ 

随机 外 链 是 :http://feeds.feedburner .com/oreilly/news 

随机 外 链 是 :http://hire.jobvite.com/CompanyJobs/Careers.aspx?c=q319 
随机 外 链 是 :http://makerfaire.com/ 














网 站 首页 上 并 不 能 保证 一 直 能 发 现 外 链 。 这 时 为 了 能 够 发 现 外 链 ， 就 需要 用 一 种 类 似 前 面 
案例 中 使 用 的 采集 方法 ， 即 递归 地 深入 一 个 网 站 直到 找到 一 个 外 链 才 停止 。 





Rİ 


图 3-1 把 程序 操作 可 视 化 成 了 一 个 流程 图 。 


获取 页 面 上 
的 所 有 外 链 


















ii 


进入 页 面 上 
的 一 个 内 链 


图 3-1: 从 互联 网 上 不 同 的 网 站 采集 外 链 的 程序 流程 图 











不 要 把 示例 程序 放 进 产品 代码 





我 想 把 代码 写 得 更 完整 ， 但 是 写 书 的 时 候 空间 和 可 读 性 非常 重要 ， 所 以 书 中 
的 示例 程序 没有 包含 真实 产品 代码 中 必须 有 的 检查 和 异常 处 理 。 





例如 ， 如 果 疏 虫 遇 到 一 个 网 站 里 面 一 个 外 链 都 没有 (虽然 不 太 可 能 ， 但 是 如 
果 程 序 运行 的 时 候 够 长 总 会 遇 到 这 类 情况 )， 这 时 程序 就 会 一 直 在 这 个 网 站 
运行 跳 不 出 去 ， 直 到 递归 到 达 Python 的 限制 为 止 。 














在 以 任何 正式 的 目的 运行 代码 之 前 ， 请 确认 你 已 经 在 可 能 出 现 问 题 的 地 方 都 
放置 了 检查 语句 。 











把 任务 分 解 成 像 “ 获 取 页 面 上 所 有 外 链 ” 这 样 的 小 函数 是 不 错 的 做 法 ， 以 后 可 以 方便 地 修 
改 代码 以 满足 另 一 个 采集 任务 的 需求 。 例 如 ， 如 果 我 们 的 目标 是 采集 一 个 网 站 所 有 的 外 
$E, 并且 记录 每 一 个 外 链 ， 我 们 可 以 增加 下 面 的 函数 : 























# 收集 网 站 上 发 现 的 所 有 外 链 列 表 
allExtLinks = set() 

allIntLinks = set() 

def getAllExternallinks(siteUrl): 
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html = urlopen(siteUrl) 
bsObj = BeautifulSoup(html) 
internallinks = getInternallinks(bsObj,splitAddress(siteUrl)[0]) 
externallinks = getExternallinks(bsObj,splitAddress(siteUrl)[0]) 
for link in externallinks: 
if link not in allExtLinks: 
allExtLinks.add(link) 
print(link) 
for link in internallinks: 
if link not in allIntLinks: 
print(" 即 将 获取 链接 的 URL 是 :"+Link) 
allIntLinks.add(link) 
getAllExternallinks(link) 


getAllExternallinks("http://oreilly.com") 





这 段 代码 可 以 看 出 两 个 循环 一 一 一 个 是 收集 内 链 ， 一 个 是 收集 外 链 一 一 然后 彼此 连接 起 来 
工作 ,程序 的 流程 如 图 3-2 所 示 。 




























获取 页 面 上 
的 所 有 外 链 










获取 页 面 上 
的 所 有 内 链 






加 入 列表 
重复 运行 














3-2: 收集 内 链 和 外 链 的 程序 流程 图 


写 代 码 之 前 拟 个 大 纲 或 画 个 流程 图 是 很 好 的 编程 习惯 ， 这 人 么 做 不 仅 可 以 为 你 后 期 处 理 节 省 
很 多 时 间 ， 更 重要 的 是 可 以 防止 自己 在 爬虫 变 得 越 来 越 复杂 时 乱 了 分 寸 。 








处 理 网 页 重 定向 
重 定向 (redirect) 允许 一 个 网 页 在 不 同 的 域名 下 显示 。 重 定向 有 两 种 形式 : 
。 服务 器 问 重 定向 ， 网 页 在 加 载 之 前 先 改变 了 URL; 
。 客户 端 重 定向 ,有 时 你 会 在 网 页 上 看 到 "10 秒 钟 后 页 面 自动 跳 转 到 ……… ”之 类 的 消息 ， 
表示 在 跳 转 到 新 URL 之 前 网 页 需要 加 载 内 容 。 


本 节 处 理 的 是 服务 器 端 重 定 向 的 内 容 。 更 多 关于 客户 端 重 定向 的 细节 ， 通 常用 
JavaScript 或 HTML 来 实现 ， 请 看 第 10 章 。 


服务 器 问 重 定向 ， 你 通常 不 用 担心 。 如 果 你 在 用 Python 3.x 版 本 的 urllib 库 ， 它 会 自 
动 处 理 重 定向 。 不 过 要 注意 ， 有 时 候 你 要 采集 的 页 面 的 URL 可 能 并 不 是 你 当前 所 在 页 
面 的 URL, 

















3.4 用 Scrapy 采 


写 网 络 爬 虫 的 挑战 之 一 是 你 经 常 需要 不 断 地 重复 一 些 简单 任务 : 找 出 页 面 上 的 所 有 链接 ， 
区 分 内 链 与 外 链 ， 跳 转 到 新 的 页 面 。 掌 握 这 些 基本 模式 非常 有 用 ， 从 零 开 始 编写 也 完全 可 
行 ， 不 过 有 几 个 工具 可 以 帮 你 自动 处 理 这 些 细节。 












































Scrapy 就 是 一 个 帮 你 大 幅度 降低 网 页 链接 查找 和 识别 工作 复杂 度 的 Python 库 ， 它 可 以 
让 你 轻松 地 采集 一 个 或 多 个 域名 的 信息 。 不 过 目前 Scrapy 仅 支 持 Python 2.7， 还 不 支持 
Python 3.x。 


当然 在 一 台 机 器 上 同时 使 用 多 个 版 本 的 Python 是 没有 问题 的 (比如 ， 同 时 安装 Python 2.7 
和 Python 3.4) 。 如 果 你 既 想 用 Scrapy 做 项 目 ， 又 想 用 Python 3.4 写 程 序 ， 完 全 没 问 题 。 














Scrapy 网 站 提供 了 最 新 版 工具 的 下 载 页面 (http://scrapy.org/download/) ， 也 可 以 用 pip 等 第 
三 方 安装 包 安装 。 记 住 Python 的 版 本 必须 是 2.7 (2.6 和 3.x 都 不 兼容 )， 而 且 运 行 所 有 使 
用 Scrapy 的 程序 也 必须 在 Python 2.7 环境 下 。 




















虽然 写 Scrapy 爬虫 很 简单 ， 但 完成 一 个 疏 虫 还 是 需要 一 些 设置 。 如 果 在 当前 目录 下 创建 新 
的 Scrapy 项 目 ， 就 执行 下 面 的 代码 : 


$scrapy startproject wikiSpider 


wikiSpider 是 新 项 目的 名 称 。 在 当前 目录 中 会 新 建 一 个 名 称 也 是 wikiSpider 的 项 目 文件 夹 。 
文件 夹 的 目录 结构 如 下 所 示 : 








。 scrapy.cfg 
一 wikiSpider 





一 _ initpy . 
一 items.py 
一 pipelines.py 
一 settings.py 
— spiders 


—  initpy . 


Jj f GI EE ^R, RNE 3E TE wikiSpider/wikiSpider/spiders/ 文件 夹 里 增加 一 个 
articleSpider.py 文件 。 另 外 ， 在 items.py 文件 中 ， 我 们 需要 定义 一 个 Article 类 。 











你 的 items.py 文件 应 该 像 下 面 这 样 (Scrapy 自动 生成 的 注释 内 容 可 以 保留 ， 当 然 删 除 也 
可 以 ) : 














4 -*- coding: utf-8 -*- 

# Define here the models for your scraped items 

# 

# See documentation in: 

# http://doc.scrapy.org/en/latest/topics/items.html 


from scrapy import Item, Field 


class Article(Item): 
# define the fields for your item here like: 
# name = scrapy.Field() 
title = Field() 


Scrapy 的 每 个 Item (条 目 ) 对 象 表示 网 站 上 的 一 个 页 面 。 当 然 ， 你 可 以 根据 需要 定义 不 同 
的 条 目 (比如 url, content, header image 等 )， 但 是 现在 我 只 演示 收集 每 页 的 title 字段 
(field), 





TE 


在 新 建 的 articleSpider.py XH 





里 面 ， 写 如 下 代码 : 














from scrapy.selector import Selector 
from scrapy import Spider 
from wikiSpider.items import Article 


class ArticleSpider(Spider): 
name="article" 
allowed domains = ["en.wikipedia.org"] 
start urls = ["http://en.wikipedia.org/wiki/Main Page", 
"http: //en.wikipedia.org/wiki/Python 928programming languageX*29"] 


def parse(self, response): 
item - Article() 
title = response.xpath('//h1/text() ')[0].extract() 
print("Title is: "«title) 
item['title'] - title 
return item 





这 个 类 的 名 称 (ArticleSpider) 与 仆 虫 文件 的 名 称 (wikiSpider) 是 不 同 的 ， 这 个 类 只 是 
在 wikiSpider 目录 里 的 一 员 ， 仅 仅 用 于 维基 词 条 页 面 的 采集 。 对 一 些 信 息 类 型 较 多 的 大 网 
站 ， 你 可 能 会 为 每 种 信息 (如 博客 的 博文 、 图 书 出 版 发 行 信息 、 专 栏 文章 等 ) 设置 独立 的 
Scrapy 条 目 ， 每 个 条 目 都 有 不 同 的 字段 ， 但 是 所 有 条 目 都 在 同一 个 Scrapy 项 目 里 运行 。 




















你 可 以 在 wikiSpider 主 目录 中 用 如 下 命令 运行 ArticleSpider; 
$ scrapy crawl article 


这 行 命令 会 用 条 目 名 称 article a US JH E d. (不 是 类 名 ,也 不 是 文件 名 ， 而 是 由 
ArticleSpider [fJ name = "article" 决定 的 )。 





EG 


击 续 出 现 的 调试 信息 中 应 该 会 这 两 行 结果 : 


Title is: Main Page 
Title is: Python (programming language) 








ZAER start urls Hip vim. KESE, RE. BAKARI 
各， 但 是 如 果 你 有 许多 URL 需要 采集 ，Scrapy 这 种 用 法 会 非常 适合 。 为 了 让 的 虫 更 加 完 
善 ， 你 需要 定义 一 些 规则 让 Scrapy 可 以 在 每 个 页 面 查 找 URL BERE: 























ind 








from scrapy.contrib.spiders import CrawlSpider, Rule 
from wikiSpider.items import Article 
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor 


class ArticleSpider(CrawlSpider): 
name-"article" 
allowed domains = ["en.wikipedia.org"] 
start urls = ["http://en.wikipedia.org/wiki/Python 
*$28programming language*29"] 
rules = [Rule(SgmlLinkExtractor(allow-('(/wiki/)((?!:).)*$'),), 
callback-"parse item", follow-True)] 


def parse item(self, response): 
item - Article() 
title = response.xpath(' //h1/text()')[0].extract() 
print("Title is: "+title) 
item['title'] - title 
return item 








SR RAI IT rb RU B V JI IG HRS Je ir R6. [e CR AR H Ctrl+C 中 止 程序 ， 它 是 不 
会 停止 的 (很 长 时 间 也 不 会 停止 )。 




















Scrapy 日 志 处 理 


Scrapy 生成 的 调试 信息 非常 有 用 ， 但 是 通常 太 罗 嗪 。 你 可 以 在 Scrapy 项 目 中 
的 setting.py 文件 中 设置 日 志 显 示 层 级 : 
LOG LEVEL = 'ERROR' 


Scrapy 日 志 有 五 种 层级 ， 按 照 范围 递增 顺序 排列 如 下 : 








e CRITICAL 
e ERROR 

e WARNING 
e DEBUG 

e INFO 


如 果 日 志 层 级 设置 为 ERROR， 那 么 只 有 CRITICAL 和 ERO 日 志 会 显示 出 来 。 
如 果 日 志 层 级 设置 为 INF0， 那 么 所 有 信息 都 会 显示 出 来 ， 其 他 同 理 。 









































日 志 不 仅 可 以 显示 在 终端 ， 也 可 以 通过 下 面 命令 输出 到 一 个 独立 的 文件 中 s 





$ scrapy crawl article -s LOG FILE-wiki.log 


如 果 目 录 中 没有 wikilog， 那 么 运行 程序 会 创建 一 个 新 文件 ， 然 后 把 所 有 的 
日 志 都 保存 到 里 面 。 如 果 已 经 存在 ， 会 在 原文 后 面 加 入 新 的 日 志 内 容 。 











Scrapy 用 Item 对 象 决 定 要 从 它 浏览 的 页 面 中 提取 哪些 信息 。Scrapy 支持 用 不 同 的 输出 格 
式 来 保存 这 些 信 息 ， 比 如 CSV、JSON 或 XML 文件 格式 ， 对 应 命令 如 下 所 示 : 





$ scrapy crawl article -o articles.csv -t csv 
$ scrapy crawl article -o articles.json -t json 
$ scrapy crawl article -o articles.xml -t xml 


当然 ， 你 也 可 以 自 定 义 Iten 对 象 ， 把 结果 写 入 你 需要 的 一 个 文件 或 数据 库 中 ， 只 要 在 爬虫 
i parse 部 分 增加 相应 的 代码 即 可 。 





Scrapy 是 处 理 网 络 数据 采集 相关 问题 的 利器 。 它 可 以 自动 收集 所 有 URL， 然 后 和 指定 的 规 
则 进行 比较 ， 确 保 所 有 的 URL 是 唯一 的 ; 根据 需求 对 相关 的 URL 进行 标准 化 ， 以 及 到 更 
RAI VL TE rp ue UH XC 





























这 点 内 容 算 只 能 是 碰 到 了 Scrapy 强大 功能 的 一 角 ， 但 我 依然 鼓励 你 去 学 习 Scrapy X 
: jose ch ads 和 其 他 在 线 的 学 习 资源 。Scrapy 的 内 容 非 常 丰 富 ， 具 有 
很 多 特性 。 如 果 那 些 你 想 用 Scrapy 做 的 事情 在 这 里 没有 提 到 ， 那 么 Scrapy 很 可 能 有 一 种 
(或 几 种 ) 方法 可 以 满足 你 的 需求 。 
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使 用 AP| 


我 和 许多 参与 过 大 项 目的 程序 员 一 样 ， 在 使 用 别人 的 代码 时 ， 也 曾 有 过 惨痛 的 经 历 。 从 命 
名 空间 问题 到 函数 输出 类 型 的 问题 ， 即 使 像 获 取 指 针 A 的 信息 然后 传递 给 方法 B 这 样 简单 


的 事情 ， 也 仿佛 一 场 署 梦 。 





这 正 是 应 用 编程 接口 (Application Programming Interface, API) 的 用 处 : 它们 为 不 同 的 应 
用 提供 了 方便 友好 的 接口 。 不 同 的 开发 者 用 不 同 的 架构 ， 甚 至 不 同 的 语言 编写 软件 都 没 问 


题 











因为 API 设计 的 目的 就 是 要 成 为 一 种 通用 语言 ， 让 不 同 的 软件 进行 信息 共享 。 


尽管 目前 不 同 的 软件 应 用 都 有 各 自 不 同 的 API， 但 “API” 经 常 被 看 成 “网 络 应 用 API”。 
一 般 情况 下 ， 程 序 员 可 以 用 HTTP 协议 向 API 发 起 请 求 以 获取 某 种 信息 ，API 会 用 XML 
(eXtensible Markup Language， 可 扩展 标记 语言 ) 或 JSON (JavaScript Object Notation, 
JavaScript 对 象 表示 ) 格式 返回 服务 器 响应 的 信息 。 尽 管 大 多 数 API 仍然 在 用 XML， 但 是 








JSON 正在 快速 成 为 数据 编码 格式 的 主流 选择 。 





用 这 种 即 开 即 用 的 接口 获取 预先 打包 好 的 信息 ， 看 起 来 好 像 和 本 书 主题 没什么 关系 ， 但 是 
这 种 看 法 只 对 了 一 半 。 虽 然 大 多 数 人 通常 不 会 把 使 用 API 看 成 网 络 数据 采集 ， 但 是 实际 上 
两 者 使 用 的 许多 技术 (都 是 发 送 HTTP 请 求 ) 和 产生 的 结果 (都 是 获取 信息 ) 差 不 太 多 ， 








两 者 经 常 是 相辅相成 的 关系 。 





例如 ， 你 可 能 会 把 网 络 疏 虫 和 API 获取 的 信息 组 合 起 来 ， 























E 








为 这 样 的 信息 可 能 更 有 意义 。 


在 本 章 后 面 的 一 个 例子 中 ， 我 们 将 会 介绍 如 何 把 维基 百科 编辑 历史 (里 面 有 编辑 者 全 地 
AE) 和 一 个 卫 地 址 解析 的 API 组 合 起 来 ， 以 获取 维基 百科 词 条 编辑 者 的 地 理 位 置 。 
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koe 我 们 将 首先 概述 API， 之 后 介绍 API 的 工作 原理 ， 以 及 几 个 目前 比较 流行 的 
I， 最 后 介绍 如 何在 网 络 疏 虫 里 使 用 这 些 API, 








4.1 API 概 述 


虽然 API 并 非 随处 可 见 (这 正 是 我 写 这 本 书 的 主要 动机 ， 因 为 即使 你 找 不 到 API, Ha 
以 用 扑 虫 采集 信息 )， 但 是 你 可 以 从 API 里 获取 许多 信息 。 如 果 你 对 音乐 感 兴趣 ， 有 几 个 
API 可 以 为 你 提供 歌曲 名 称 、 歌 手 、 专 辑 ， 以 及 歌曲 风格 和 相关 歌手 的 信息 。 想 要 体育 
信息 ? ESPN 提供 的 API 包括 运动 员 信 息 、 比 赛 分 数 等 。Google 的 开发 者 社区 (https:// 
console.developers.google.com/) 也 提供 了 一 堆 API 用 于 获取 语言 翻译 、 分 析 、 地 理 位 置 等 


信息 。 












































API 很 容易 使 用 。 其 实 你 只 要 在 浏览 器 里 输入 下 面 的 网 址 就 可 以 发 起 一 个 简单 的 API 
请 求 : ， 














http://freegeoip.net/json/50.78.253.58 








应 该 会 出 现下 面 的 结果 : 























("ip":"50.78.253.58", "country, code": "US", "country, name": XE B]", "region - 
code" :"MA" ,"region name":"Massachusetts", "city": "Chelmsford" ,"zipcode":"01824", 
"latitude":42.5879,"longitude":-71.3498,"metro code":"506","area code":"978"] 





你 可 能 会 想 ， 这 不 就 是 在 浏览 器 窗口 输入 一 个 网 址 ， 按 回 车 后 获取 的 (只 是 JSON We 
信息 吗 ? 究竟 API 和 普通 的 网 址 访问 有 什么 区 别 呢 ? 如 果 不 考 虑 API 高 大 上 的 名 称 ， 其 实 
两 者 没 哈 区别 。API 可 以 通过 HTTP 协议 下 载 文件 ， 和 URL 访问 网 站 获取 数据 的 协 议 一 
样 ， 它 几乎 可 以 实现 所 有 在 网 上 干 的 事情 。API 之 所 以 叫 API 而 不 是 叫 网 站 的 原因 ， 其 实 
是 首先 API 请 求 使 用 非常 严谨 的 语法 ， 其 次 API 用 JSON 或 XML 格式 表示 数据 ， 而 不 是 
HTML 格式 。 


4.2 ”API 通用 规则 


和 大 多 数 网 络 数据 采集 的 方式 不 同 ，API 用 一 套 非常 标准 的 规则 生成 数据 ， 而 且 生 成 的 数 
据 也 是 按照 非常 标准 的 方式 组 织 的 。 因 为 规则 很 标准 ， 所 以 一 些 简单 、 基 本 的 规则 很 容易 
学 ， 可 以 帮 你 快速 地 掌握 任意 API 的 用 法 。 












































不 过 并 非 所 有 API 都 很 简单 ， 有 些 API 的 规则 比较 复杂 ， 因 此 第 一 次 使 用 一 个 API 时 ， 建 
议 阅 读 文 档 ， 无 论 你 对 以 前 用 过 的 API 是 多 么 熟悉 。 








Ed: 这 个 API 把 全 地 址 解析 成 地 理 位 置 ， 在 本 章 的 后 面 用 到 。 你 可 以 通过 http://freegeoip.net/ 看 到 更 
多 的 信息 
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4.2.1 方法 
利用 HTTP 从 网 络 服务 获取 信息 有 四 种 方式 ; 


e GET 

e POST 

e PUT 

e DELETE 


GET 就 是 你 在 浏览 器 中 输入 网 址 浏览 网 站 所 做 的 事情 。 当 你 访问 http://freegeoip.net/ 
json/50.78.253.58 时 ， 就 会 使 用 GET 方法 。 可 以 想象 成 GET 在 说 :“ 喂 ， 网 络 服务 器 ， 请 按 
照 这 个 网 址 给 我 信息 。” 








POST 基本 就 是 当 你 填写 表单 或 提交 信息 到 网 络 服务 器 的 后 端 程序 时 所 做 的 事情 。 每 次 当 你 
登录 网 站 的 时 候 ， 就 是 通过 用 户 名 和 (有 可 能 加 密 的 ) 密码 发 起 一 个 POST 请 求 。 如 果 你 用 
API 发 起 一 个 POST 请 求 ， 相 当 于 说 “请 把 信息 保存 到 你 的 数据 库 里 ”。 



































PUT 在 网 站 交互 过 程 中 不 常用 ， 但 是 在 API 里 面 有 时 会 用 到 。PUT 请 求 用 来 更 新 一 个 对 象 
或 信息 。 例 如 ，API 可 能 会 要 求 用 PosT 请 求 创 建新 用 户 ， 但 是 如 果 你 要 更 新 老 用 户 的 邮箱 
地 址 ， 就 要 用 PUT 请 求 了 。? 




















DELETE 用 于 删除 一 个 对 象 。 例 如 ， 如 果 我 们 向 http://myapi.com/user/23 发 出 一 个 DELETE 请 
RK, MAMER ID 号 是 23 的 用 户 。DELETE 方法 在 公共 API 里 面 不 常用 ， 它 们 主要 用 于 创建 
信息 ， 不 能 随便 让 一 个 用 户 去 删 掉 数据 库 的 信息 。 但 是 ， 和 PUT 方法 一 样 ，DELETE 方法 也 
值得 了 解 一 下 。 





虽然 在 HTTP 规范 里 还 有 一 些 信息 处 理 方式 ， 但 是 这 四 种 基本 是 你 使 用 API 过 程 中 可 能 遇 
到 的 全 部 。 








4.2.2 ”验证 


虽然 有 些 API 不 需要 验证 操作 〈 就 是 说 任何 人 都 可 以 使 用 API， 不 需要 注册 )， 但 是 很 多 
新 式 API 在 使 用 之 前 都 要 求 客户 验证 。 





有 些 API 要 求 客户 验证 是 为 了 计算 API 调用 的 费用 ， 或 者 是 提供 了 包月 的 服务 。 有 些 验证 
是 为 了 “限制 ”用 户 使 用 API (限制 每 秒 钟 、 每 小 时 或 每 天 API 调用 的 次 数 )， 或 者 是 限 
制 一 部 分 用 户 对 某 种 信息 或 某 类 API 的 访问 。 还 有 一 些 API 可 能 不 要 求 验证 ， 但 是 可 能 会 




















注 2: EK, 很 多 API 在 更 新 信息 的 时 候 都 是 用 POST Vice FORE PUT 请 求 。 究 竞 是 创建 一 个 新 实体 还 是 更 新 
一 个 旧 实 体 ， 通常 要 看 AP 请 求 本 身 是 如 何 构建 的 。 不 过 ， 擎 握 两 者 的 差异 还 是 有 好 处 的 ， 用 API 
的 时 候 你 经 常会 遇 到 PUT 请 求 。 
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为 了 市 场 营销 而 跟踪 用 户 的 使 用 行为 。 

通常 API 验证 的 方法 都 是 用 类 似 令 牌 (token) 的 方式 调用 ， 每 次 API 调用 都 会 把 令 牌 传 
递 到 服务 器 上 。 这 种 令 牌 要 么 是 用 户 注册 的 时 候 分 配给 用 户 ， 要 么 就 是 在 用 户 调用 的 时 候 
才 提 供 ， 可 能 是 长 期 固定 的 值 ， 也 可 能 是 频繁 变化 的 ， 通 过 服务 器 对 用 户 名 和 密码 的 组 合 
处 理 后 生成 。 


例如 ， 调 用 The Echo Nest 音乐 平台 的 API 获取 枪 与 玫瑰 乐队 (Guns N'Roses). 的 歌曲 : 















































http://developer.echonest.com/api/v4/artist/songs?api key-«[ÜJapi key» 
A20&name-guns*20n*2720roses&format-json&start-0&results-100 
这 个 链接 向 服务 器 提供 的 api key 是 我 注册 之 后 得 到 的 ， 服 务 器 会 识别 出 这 个 链接 发 起 的 
是 Ryan Mitchell (我 ) 的 请 求 ， 然 后 向 请 求 者 提供 JSON 格式 的 数据 。 
令 牌 除了 在 URL 链接 中 传递 ， 还 会 通过 请 求 头 里 的 cookie 把 用 户 信息 传递 给 服务 器 。 我 
们 将 在 本 章 后 面 和 第 12 章 更 加 详细 地 介绍 请 求 头 的 内 容 ， 这 里 仅 做 简单 的 演示 ， 请 求 头 
可 以 用 前 几 章 使 用 的 urLLib 包 进 行 传递 。 





























token = "«your api key>" 
webRequest = urllib.request.Request("http://myapi.com", headers-("token":token]) 
html = urlopen(webRequest) 


4.3 服务 器 响应 


和 本 章 前 面 介绍 的 FreeGeoIP 的 例子 一 样 ，API 有 一 个 重要 的 特征 是 它们 会 反馈 格式 友好 
的 数据 。 大 多 数 反馈 的 数据 格式 都 是 XML 和 JSON。 


这 几 年 ，JSON EE XML 更 受 欢 迎 ， 主 要 有 两 个 原因 。 首 先 ，JSON 文件 比 完整 的 XML 格 
式 小 。 比 如 下 面 的 XML 数据 用 了 98 个 字符 : 

















<user><firstname>Ryan</firstname><lastname>Mitchell</lastname><username>Kludgist 
</username></user> 


同样 的 JSON 格式 数据 : 
("user": ("firstname": "Ryan" , "Lastname" :"MitcheLL" ,"username": "Kludgist")] 
只 要 用 T3 个 字符 ， 比 表述 同样 内 容 的 XML 文件 要 小 3696, 


当然 有 人 可 能 会 说 ，XML 也 可 以 表示 成 这 种 形式 : 








«user firstname-"ryan" lastname-"mitchell" username="Kludgist"></user> 


不 过 这 么 做 并 不 好 ， 因 为 它 不 支持 深层 舱 入 数据 。 而 且 它 也 用 了 71 个 字符 ， 和 JSON 25 
不 多 。 
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JSON 格式 比 XML 更 受 欢 迎 的 另 一 个 原因 是 网 络 技术 的 改变 。 过 去 ， 服 务 器 端 用 PHP 
和 NET 这 些 程序 作为 API 的 接收 端 。 现 在 ,服务器 端 也 会 用 一 些 JavaScript 框架 作为 API 
的 发 送 和 接收 端 ， 像 Angular 或 Backbone 等 。 虽 然 服务 器 端的 技术 无 法 预测 它们 即将 收 到 
的 数据 格式 ， 但 是 像 Backbone 之 类 的 JavaScript 库 处 理 JSON 比 处 理 XML 要 更 简单 。 


虽然 大 多 数 API 都 支持 XML 数据 格式 ， 但 在 本 书 中 我 们 还 是 用 JSON 格式 。 当 然 ， 如 果 
你 还 没有 把 两 种 格式 都 掌握 ， 那 么 现在 熟悉 它们 是 个 好 时 机 各 期 内 它们 都 不 会 消失 。 















































API 调 用 
不 同 API 的 调用 语法 大 不 相同 ， 但 是 有 几 条 共同 准则 。 当 使 用 GET 请 求 获取 数据 时 ， 用 
URL 路 径 描述 你 要 获取 的 数据 范围 ， 查 询 参 数 可 以 作为 过 着 器 或 附加 请 求 使 用 。 














例如 ， 下 面 这 个 虚拟 的 API， 可 以 获取 ID 是 1234 的 用 户 在 2014 年 8 月 份 发 表 的 所 有 博文 ， 


http://socialmediasite.com/users/1234/posts?from-080120148to-08312014 














有 许多 API 会 通过 文件 路 径 (path) 的 形式 指定 API 版 本 、 数 据 格 式 和 其 他 属性 。 例 如 ， 
下 面 的 链接 会 返回 同样 的 结果 ， 但 是 使 用 虚拟 API 的 第 四 版 ， 反 馈 数 据 为 JSON 格式 : 














http://socialmediasite.com/api/v4/json/users/1234/posts?from-080120148to-08312014 
还 有 一 些 API 会 通过 请 求 参 数 (request parameter) 的 形式 指定 数据 格式 和 API 版 本 : 


http://socialmediasite.com/users/1234/posts?format-json&from-080120148to-08312014 


4.4 Echo Nest 


The Echo Nest 音乐 数据 网 站 ^ d — A FH d£ JF h vr E 2 256 70 9 M ER EDU, BRR 
Pandora 之 类 的 音乐 公司 都 是 通过 人 工 干预 完成 音乐 的 分 类 与 说 明 , 但 是 The Echo Nest 
是 通过 自动 智能 技术 ， 以 及 博客 与 新 闻 信 息 的 采集 ， 来 完成 艺术 家 、 歌 曲 和 专辑 的 分 类 工 
作 的 。 


























更 给 力 的 是 ， 它 的 API 可 以 经 非 商业 用 途 免费 使 用 。 使 用 API 得 有 一 个 key， 你 可 以 在 
The Echo Nest 的 注册 页 面 (https://developer.echonest.com/account/register) 填 入 名 称 、 邮 箱 
和 用 户 名 来 注册 账号 。 

















注 3: 2005 年 成 立 ，2014 年 被 Spotify 以 1 亿美 元 收购 。 
注 4: 请 看 The Echo Nest 的 授权 页 面 (http://developer.echonest.com/licensing.html) 中 关于 请 求 限 制 的 相关 
2t. 
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几 个 示例 


The Echo Nest 的 API 的 响应 结果 由 四 个 部 分 组 成 : 艺术 家 (artist)、 歌 曲 (song). 4f 


(track) 和 风格 (genre)。 除 了 风格 之 外 ， 所 有 信息 都 带 有 唯 























用 




















巴 信息 展示 成 不 同 的 形式 。 假 如 我 想 获 取 Monty Python 喜剧 乐团 的 歌曲 ， 可 以 用 下 








链接 获取 歌曲 的 ID (记得 把 < 你 的 apt. key» 禁 换 成 你 自己 的 API key) : 





http://developer .echonest.com/api/v4/artist/search?api_key=< 你 的 api_ 
key>&name=monty%20python 


响应 的 结果 是 : 


{"response": {"status": {"version": "4.2", "code": 0, "message": "Suc 
cess"), "artists": [("id": "AR5HF791187B9ABAF4", "name": "Monty Pytho 
n"), ("id": "ARWCIDE13925F19A33", "name": "Monty Python's SPAMALOT"], 

{"id": "ARVPRCC12FE0862033", "name": "Monty Python's Graham Chapman" 


113 


还 可 以 用 歌曲 的 ID 号 查询 歌曲 名 称 : 


http://deveLoper .echonest.com/api/v4/artist/songs?api_key=< 你 的 api_key>&id= 
AR5HF791187B9ABAF4&format=json&start=0&resuLts=10 














这 样 就 会 响应 Monty Python 的 歌曲 查询 结果 ， 都 是 一 些 不 大 流行 的 歌曲 ; 











["response": ("status": ("version": "4.2", "code": 0, "message": "Success"], 
"start": 0, "total": 476, "songs": [("id": "SORDAUE12AF72AC547", "title": 
"Neville Shunt"), ("id": "SORBMPW13129A9174D", "title": "Classic (Silbury Hill) 
(Part 2)"}, ("id": "SOQXAYQ1316771628EbE", "title": "Famous Person Quiz (The 
Final Rip Off Remix)"j, ("id": "SOUMAYZ133EBA4E17E8", "title": "Always Look On 
The Bright Side Of Life - Monty Python"), ...]}} 








另外 ， 我 也 可 以 用 name 是 monty%20python 来 替换 唯一 的 ID 号 来 获取 同样 的 信息 : 








http://deveLoper .echonest.com/api/v4/artist/songs?api_key=< 你 的 api_key>2&name= 
monty%20python&format=json&start=0&resuLts=10 


用 同样 的 ID 号 ， 我 也 可 以 请 求 与 Monty Python 风格 相似 的 艺术 家 : 


http://deveLoper .echonest.com/api/v4/artist/similar?api_key=< 你 的 api_key>&id= 
AR5HF791187B9ABAF4&format=json&results=10&start=0 


响应 的 结果 包括 像 Eric Ide 那样 的 喜剧 艺术 家 ， 他 是 Monty Python 的 一 员 : 





{"response": ("status": ("version": "4.2", "code": 0, "message": "Suc 
cess"), "artists": [("name": "Life of Brian", "id": "ARNZYOS1272BAT7FF 
38"), ("name": "Eric Idle", "id": "ARELDIS1187B9ABC79"j, ["name": "Th 
e Simpsons", "id": "ARNR4B91187FB5027C"), ("name": "Tom Lehrer", "id" 
: "ARJMYTZ1187FB54669"3, ...])] 


的 ID 号 ， 可 以 通过 API iS 





看 的 
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你 会 发 现 这 些 相似 艺 术 家 包含 一 些 很 有 趣 的 信息 (比如,“Tom Lehrer”“)， 第 一 个 结果 
“The Life of Brian” 是 Monty Python 乐团 演奏 的 电影 配乐 。 使 用 这 类 取材 丰富 但 人 工 干 预 
很 少 的 数据 库 时 ， 比 较 痛 若 的 是 有 时 候 会 遇 到 一 些 无 厘 头 的 结果 。 这 在 使 用 第 三 方 API 创 
建 应 用 时 需要 格外 广 意 。 
































我 就 介绍 这 儿 个 The Echo Nest API 的 小 例子 。 有 具体 文档 请 参考 The Echo Nest API 概述 
(http://developer.echonest.com/docs/v4) 。 








The Echo Nest 资助 了 很 多 技术 与 音乐 交叉 领域 的 黑客 松 项 目 (hackathon， 也 叫 黑 客 马 拉 
松 、 编 程 马拉松 ) 和 编程 项 目 。 如 果 你 想 从 中 获取 灵感 ，The Echo Nest 示例 页 面 (http:// 
static.echonest.com/labs/demo.html) 是 一 个 好 的 起 点 。 








4.5 Twitter API 


众所周知 ，Twitter 非常 保护 自己 的 API， 这 也 是 理所当然 的 。 这 家 公司 平均 每 月 拥有 2.3 
亿 活 跃 用 户 和 超过 1 亿美 元 的 收入 ， 是 不 会 愿意 让 用 户 随意 获取 信息 的 。 














Twitter 的 API 请 求 限制 有 两 种 方法 : 每 15 分 钟 15 次 和 每 15 分 钟 180 次 ， 由 请 求 类 型 决 
定 。 比 如 你 可 以 1 分钟 获取 12 次 (每 15 分 钟 180 次 的 平均 数 ) Twitter 用 户 基本 信息 ， 但 
是 1 分 钟 只 能 获取 1 次 (每 15 分 钟 15 次 的 平均 数 ) 这 些 用 户 的 关注 者 (follower)。 


4.5.1 开始 


除了 流量 限制 ，Twitter 的 API 验证 方式 也 比 The Echo Nest 要 复杂 ， 既 要 有 API 的 key， 
也 要 用 其 他 key。 要 获取 API 的 key， 你 需要 注册 一 个 Twitter 账号 ， 可 以 在 注册 页 面 
(https://twitter.com/signup) 直接 注册 。 另 外 ， 还 需要 在 Twitter 的 开发 者 网 站 (https:/apps. 
twitter.com/app/new) 注册 一 个 新 应 用 。 





完成 注册 之 后 ， 你 会 在 一 个 新 页 面 看 到 你 应 用 的 基本 信息 ， 包 括 自 定义 的 key. (El 4-1)。 


























注 5: 美国 歌手 、 数 学 家 、 曲 风 简 洁 幽 默 ，https:Wen.wikipedia.org/wiki/Tom_Lehrer。 一 一 译 者 注 
注 6: 完整 的 流量 限制 列表 ， 请 查看 https://dev.twitter.com/rest/public/rate-limits。 
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B https://apps.twitter.com/app/6995837 








Organization website None 

Application Setting 

Your application's ( mer Key and Secret are used to authenticate requests to the Twitter Platform. 
Access level Read-only (modify app permissions) 

Consumer Key (API Key) t7BsdDEtbm6RNMJFWT7LriD3ZE (manage keys and access tokens) 
Callback URL None 

Sign in with Twitter No 

App-only authentication https://api.twitter.com/oauth2/token 

Request token URL https://api.twitter.com/oauth/request token 

Authorize URL https://api.twitter.com/oauth/authorize 

Access token URL https://api.twitter.com/oauth/access token 


Application Actions 











图 4-1; Twitter 的 应 用 设置 页 面 提供 了 新 应 用 的 基本 信息 





如 果 你 单 击 “manage keys and access tokens” 页 面 ， 就 会 跳 转 到 一 个 包含 更 多 信息 的 页 面 
E ( 图 4-2) o 




















B https://apps.twitter.com/app/6995837 /keys 





PythonScraping 


Details ^ Settings Keys and Access Tokens | Permissions 





Application Settings 

Keep the "Cons er et" a secret. This key should never be human ble in your application 
Consumer Key (API Key) t7BsdDEtbm6RNMJFWTLriD3ZE 

Consumer Secret (API Secret) VsIvKcTTIdFSPEUfkp3ZvxUjoVIBEBYRCuFdmq04CUZHHW2QsE 
Access Level Read-only (modify app permissions) 

Owner Kludgist 

Owner ID 14983299 


Application Actions 


Regenerate Consumer Key and Secret Change App Permissions 











图 4-2. 使 用 Twitter 的 API 需要 用 加 密 key 
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这 个 页 面 还 包括 一 个 自动 生成 加 密 key 的 按钮 ， 可 以 使 得 应 用 被 公开 访问 (比如 ， 你 打算 
把 这 个 应 用 作为 一 本 书 里 的 例子 使 用 时 )。 


4.5.2 LARBI 

Twitter 的 验证 系统 用 OAuth 验证 ， 非 常 复 杂 ， 最 好 找 一 个 成 熟 稳定 的 Python 库 来 处 理 它 ， 
不 要 自己 从 头 写 代码 来 实现 。 因 为 手工 处 理 Twitter 的 API 是 非常 复杂 的 工作 ， 所 以 本 节 
内 容 的 重点 是 用 Python 代码 来 实现 API 的 交互 ， 不 是 亲手 实现 这 个 API。 


























在 编写 本 书 时 ， 有 很 多 Python 2.x 版 本 的 库 可 以 与 Twitter 进行 交互 ， 但 是 Python 3.x 版 本 
的 库 比 较 少 。 好 在 最 好 的 一 个 Python Twitter Æ (名 字 也 叫 Twitter) 也 支持 Python 3.x 版 
本 。 你 可 以 从 Python Twitter Tools (PTT, http://mike.verdone.ca/twitter/#downloads) 网 站 
下 载 并 安装 这 个 库 (pip 安装 也 可 以 ，ptp install twitter) ; 








$cd twitter-x.Xxx.x 
$python setup.py install 


Twitter 访问 权限 


应 用 的 默认 访问 权限 (credential permissions) 是 只 读 (read-only) 模式 ， 除 
了 让 你 的 应 用 发 推 文 之 外 ， 这 样 的 权限 可 以 满足 大 部 分 需求 。 











如 果 想 把 令 牌 的 权限 改 成 读 / 写 (read/write) 模式 ， 你 可 以 在 Twitter 的 应 用 
控制 面板 的 权限 栏 进行 修改 。 改 变 权 限 后 令 牌 会 重新 生成 。 





如 果 有 需要 你 也 可 以 更 新 应 用 的 令 牌 权限 ， 用 它 登录 你 的 Twitter 账号 直接 
收发 推 文 。 不 过 要 注意 信息 安全 。 通 常 ， 应 该 对 不 同 的 应 用 授予 不 同 的 权 
限 ， 而 不 是 给 那些 不 需要 太 多 权限 的 应 用 过 多 的 访问 权限 。 




















我 们 的 第 一 个 练习 是 搜索 某 个 推 文 。 下 面 的 代码 连接 Twitter API， 然 后 打印 一 个 包含 
#python 标签 的 推 文 JSON 列表 。 记 得 用 的 时 候 把 对 应 的 信息 替换 成 你 的 OAuth 验证 信息 : 


from twitter import Twitter 


t = Twitter(auth-OAuth(«Access Token»,«Access Token Secret», 

«Consumer Key»,«Consumer Secret»)) 
pythonTweets = t.search.tweets(q = "#python") 
print(pythonTweets) 


虽然 这 个 程序 的 打印 结果 可 能 会 很 长 ， 但 是 你 可 以 获得 推 文 的 所 有 信息 ， 包 括 : 推 文 的 发 
表 日 期 和 有 具体 时 间 ， 转 发 或 收藏 的 信息 ， 用 户 账号 和 简介 图 片 的 信息 ， 等 等 。 虽 然 你 只 想 
看 这 些 推 文 的 部 分 内 容 ， 但 是 Twitter API 是 为 那些 想 在 自己 网 站 上 显示 完整 推 文 的 开发 者 
设计 的 ， 因 此 会 包含 许多 内 容 。 
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你 也 可 以 通过 API 发 一 篇 推 文 来 看 看 效果 : 
from twitter import * 


t = Twitter(auth-OAuth(«Access Token», «Access Token Secret», 

«Consumer Key», «Consumer Secret»)) 
statusUpdate - t.statuses.update(status-'Hello, world!') 
print(statusUpdate) 








推广 的 JSON 格式 数据 (JSON 字段 和 内 容 都 用 双 引 号 ， 这 是 Python 字符 串 打 印 形式 的 内 
容 ) 如 下 所 示 : 


{'created_at': 'Sun Nov 30 07:23:39 +0000 2014', 'place': None, 'in reply to scr 
een name': None, 'id str': '538956506478428160', 'in reply to user id: None,'lan 
g': 'en', 'in reply to user id str': None, 'user': ('profile sidebar border colo 
r': '000000', 'profile background image url': 'http://pbs.twimg.com/profile back 
ground images/497094351076347904/RXn8MUlD.png', 'description':'Software Engine 
er(LinkeDrive, Masters student (QHarvardEXT, QOlinCollege graduate, writer (QOReil 
lyMedia. Really tall. Has pink hair. Female, despite the name.','time zone': 'Ea 
stern Time (US & Canada)', 'location': 'Boston, MA', 'lang': 'en', 'url': 'http: 
//[t.co/FMedHXloIw', 'profile location': None, 'name': 'Ryan Mitchell', 'screen n 
ame': 'Kludgist', 'protected': False, 'default profile image': False, 'id str': 
'14983299', 'favourites count': 140, 'contributors enabled': False, 'profile use 
background image': True, 'profile background image url https': 'https://pbs.twi 
mg.com/profile background images/497094351076347904/RXn8MUlD.png', 'profile side 
bar fill color': '889654', 'profile link color': '0021B3', 'default profile': Fa 
lse, 'statuses count': 3344, 'profile background color': 'FFFFFF', 'profile imag 
e url': 'http://pbs.twimg.com/profile images/496692905335984128/XJh d5f5 normal. 
jpeg', 'profile background tile': True, 'id': 14983299, 'friends count': 409, 'p 
rofile image url https': 'https://pbs.twimg.com/profile images/49669290533598412 
8/XJh d5f5 normal.jpeg', 'following': False, 'created at': 'Mon Jun 02 18:35:1 

8 «0000 2008', 'is translator': False, 'geo enabled': True, 'is translation enabl 
ed': False, 'follow request sent': False, 'followers count': 2085, 'utc offset' 

: -18000, 'verified': False, 'profile text color': '383838', 'notifications': F 
alse, 'entities': ('description': ('urls': []}, 'url': [f'urls': [('indices': [ 

0, 22], 'url': 'http://t.co/FM6dHXloIw', 'expanded url': 'http://ryanemitchell. 
com', 'display url': 'ryanemitchell.com')]J], 'listed count': 22, 'profile banne 
r url': 'https://pbs.twimg.com/profile banners/14983299/1412961553'), 'retweeted 
': False, 'in reply to status id str': None, 'source': '«a hrefz'http://ryanemit 
chell.com" rel-z"nofollow"2PythonScraping«/a»', 'favorite count': 0, 'text': 'Hell 
o,world!', 'truncated': False, 'id': 538956506478428160, 'retweet count': 0, 'fa 
vorited': False, 'in reply to status id': None, 'geo': None, 'entities': ['user m 
entions': [], 'hashtags': [], 'urls': [], 'symbols': []), 'coordinates': None, ' 
contributors': None) 














这 就 是 发 了 一 篇 推 文 的 结果 。 我 有 时 觉得 Twitter 之 所 以 要 限制 API 访问 次 数 ， 是 因为 每 
个 推 文 的 字 市 很 多 ， 请 求 响应 实在 太 费 流量 。 


对 于 获取 一 组 推 文 的 请 求 ， 你 可 以 通过 设置 推 文 数量 来 限制 条 数 : 

















T3 





pythonStatuses - t.statuses.user timeline(screen name-"montypython", count-5) 
print(pythonStatuses) 
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这 个 例子 中 ， 我 们 请 求 @montypython 推 文中 〈 也 包括 转发 的 推 文 ) 按时 间 排 序 最 靠 前 的 
5 条 推 文 。 


尽管 这 三 个 例子 介绍 了 Twitter API 的 许多 功能 (搜索 推 文 ， 获取 任意 用 户 的 推 文 ， 用 自 
己 的 账号 发 推 文 )， 但 是 Twitter Python 库 的 能 力 远 不 止 这 些 。 你 还 可 以 搜索 和 操作 Twitter 
的 信息 列表 ， 已 关注 和 未 关注 的 用 户 ， 以 及 查看 用 户 的 简介 信息 ， 等 等 。 完 整 的 文档 请 在 
GitHub (https://github.com/sixohsix/twitter) 上 查看 。 





4.6 Google API 


Google 是 目前 为 网 民 提供 最 全 面 、 最 好 用 的 网 络 API 套件 (collection) 的 公司 之 一 。 无 
论 你 想 处 理 哪 种 信息 ， 包 括 语 言 翻译 、 地 理 位 置 、 日 历 ， 甚 至 基因 数据 ，Google 都 提供 了 
API, Google 还 为 它 的 一 些 知名 应 用 提供 API， 比 如 Gmail, YouTube 和 Blogger 等 。 









































查看 Google API 有 两 种 方式 。 一 种 方式 是 通过 产品 页 面 (https://developers.google.com/ 
products/) 查看 ， 里 面 有 许多 API、 软 件 开 发 工具 包 ， 以 及 甚 他 软件 开发 者 感 兴 趣 的 项 目 。 
另 一 种 方式 是 API 控制 台 (https://console.developers.google.com/) ， 里 面 提 供 了 方便 的 接口 
来 开启 和 关闭 API 服务 ， 查 看 流量 限制 和 使 用 情况 ， 还 可 以 和 Google 强大 的 云 计 算 平 台 
的 开发 实例 结合 使 用 。 


Google 的 大 多 数 API 都 是 免费 的 ， 不 过 有 些 需要 付费 ， 比 如 搜索 API 需要 一 个 付费 的 
授权 。Google 的 免费 API 套件 对 普通 版 的 账号 也 是 非常 慷慨 的 ， 允 许 每 天 进行 250 次 到 
20 000 000 次 的 访问 。 还 有 一 些 API 可 以 通过 验证 信用 卡 提 高 流量 上 限 〈 不 需要 支付 费 
用 )。 比 如 ，Google 的 地 点 查询 API 每 24 小 时 的 流量 限制 是 1000 次 ， 但 是 如 果 你 通过 
了 信用 卡 验证 ， 就 可 以 提高 到 150 000 次 。 更 多 的 信息 请 参考 Google 的 API 使 用 限额 和 
计 费 方式 页 面 (https://developers.google.com/places/webservice/usage) 。 



































4.6.1 开始 

如 果 你 有 Googe 账号， 可 以 查看 自己 可 用 的 API 列表 ， 并 通过 Google 开发 者 控制 台 
(https://console.developers.google.com/) 创建 API 的 key。 如 果 你 没有 Google 账号 ， 请 在 创 
建 Google 账号 页 面 (https://accounts.google.com/SignUp) 建立 自己 的 账号 。 
































当 你 登录 账号 或 账号 创建 完成 后 ， 就 能 在 API 控制 台 页 面 (https://console.developers. 
google.com/project/201151233021/apiui/) 看 到 一 些 账号 信息 ， 包 含 API 的 key。 单 击 左边 菜 
HJ “Credentials” (EE) 选项 (图 4-3) : 




















€ — Œ fi 58 https://console.developers.google.com/project/207151233021/apiui/credential?authuser- 0 





Google 


Projects OAuth 
OAuth 2.0 allows users to share specific 
API Project data with you (for example, contact lists) 
while keeping their usernames, passwords, 
Overview 


and other information private 


Permissions 
AS ; Learn more 
Billing & settings 


APIs 
Credentials 


Consent screen à 
Public API access Key for browser applications 


Push 
Use of this key does not require any user 
Monitoring action or consent, does not grant acoees to API KEY AlzaSyB030S700loXOhC9KD7Z90cs1FtWpg6C6l 
Dashboards & alerts any account information, and is not used for 
authorization. REFERERS Any referer allowed 
Source Code 
Learn more 
Compute ACTIVATION DATE Jun 26, 2014 11:19 AM 
Compute Engine 
Create new Key ACTIVATED BY ryan.e.mitchellg gmail.com (you) 
VM instances 
Disks 
Edit allowed referers Regenerate key Delete 











&] 4-3: Google 的 API 凭证 页 面 


在 凭证 页 面 ， 你 可 以 单 击 “Create new Key” 按 钮 创建 新 的 API key。 为 了 你 的 账号 安全 ， 
建议 限制 API 使 用 的 IP 地 址 或 URL 链接 。 你 也 可 以 创建 一 个 可 用 于 任意 人 P 地 址 或 URL 
的 API key， 只 要 把 “Accept Request From These Server IP Addresses”( 接 受 这 些 服务 器 IP 
地 址 发 出 的 请 求 ) 这 一 栏 空 着 就 行 了 。 但 是 ， 请 记 住 保证 API key 的 安全 性 是 非常 重要 的 
事情 ， 如 果 你 不 限制 允许 使 用 API AI IP 地址 一 一 任何 使 用 你 的 API key 调用 你 的 API 都 
算 成 是 你 的 消费 ， 即 使 你 并 不 知情 。 


你 也 可 以 建立 多 个 API key。 比 如 ， 你 可 以 为 每 个 项 目 都 分 配 一 个 单独 的 API key， 也 可 以 
为 每 个 网 站 域名 都 分 配 一 个 API key。 但 是 ，Google 的 API 流量 是 按照 每 个 账号 分 配 的 ， 
不 是 按照 每 个 key 分 配 的 ， 所 以 这 样 做 虽然 可 以 方便 地 管理 API 权限 ， 但 是 并 不 会 提高 你 
的 可 用 流量 |! 








Jin 























4.6.2 ” 几 个 示例 

Google 最 受 欢迎 的 (个 人 认为 也 是 最 有 趣 的 ) API 都 在 Google 地 图 API 套件 中 。 你 可 能 
见 过 很 多 网 站 都 在 用 艇 入 式 Google 地 图 ， 觉 得 自己 对 这 类 功能 很 熟悉 。 但 是 ， 地 图 API 
远 比 岁入 式 地 图 的 功能 丰富 得 多 你 可 以 把 街道 地 址 解析 成 经 /纬度 (longitude/latitude) 
坐标 值 ， 地 球 上 任意 点 的 海拔 高 度 ， 做 出 基于 位 置 的 可 视 化 图 形 ， 获 取 任 意 位 置 的 时 区 信 
息 ， 以 及 其 他 一 些 地 图 相关 的 事情 。 
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在 你 自己 尝试 这 些 例子 的 时 候 ， 请 从 Google 的 API 控制 台 里 把 对 应 的 API 激活 。Google 
会 把 这 些 API 的 激活 量 作为 应 用 量度 (metric， 即 “统计 多 少 用 户 在 使 用 这 个 APP), Br 
以 在 使 用 这 些 API 之 前 你 需要 激活 它们 。 











用 Google 的 Geocode (地 理 位 置信 息 ) API 你 可 以 在 浏览 器 里 实现 一 个 简单 的 GET 请 求 ， 
把 街道 地 址 (这 里 用 的 是 Boston Museum of Science， 里 面 有 Science Park) 解析 成 纬度 和 
经 度 : 

















https://maps.googleapis.com/maps/api/geocode/json?address=1+Science+Park+Boston+MA+ 
02114&key=< 你 的 API keys 


服务 器 响应 的 结果 是 : 


"results" : [ ( "address, components" : [ { "long name" : "Museum Of Science Drive 
way", "short name" : "Museum Of Science Driveway", "types" : [ "route" ] }, ( "1l 
ong name" : "Boston", "short name" : "Boston", "types" : [ "locality", "politica 
1" ] }, { "long name" : "Massachusetts", "short name" : "MA", "types" : [ "admin 
istrative area level 1", "political" ] }, { "long name" : "United States", "shor 
t name" : "US", "types" : [ "country", "political" ] }, ( "long name" : "0211 
4", "short name" : "02114", "types" : [ "postal code" ] } ], "formatted address" 
: "Museum Of Science Driveway, Boston, MA 02114, USA", "geometry" : ( "bounds" : 
( "northeast" : { "lat" : 42.368454, "lng" : -71.06961339999999 }, "southwest" : 
{ "lat" : 42.3672568, "lng" : -71.0719624 ) }, "location" : ( "lat" : 42.3677994 
, "ing" : -71.0708078 j, "location type" : "GEOMETRIC CENTER", "viewport" : ( "n 
ortheast" : ( "lat" : 42.3692043802915, "ling" : -71.06943891970849 }, "southwest 
"o: ( "lat" : 42.3665064197085, "lng" : -71.0721368802915 j } }, "types" : [ "ro 
ute" ] ) ], "status" : "OK" } 














其 实 我 们 在 API 里 发 送 的 地 址 格式 并 不 好 。 但 是 Google 就 是 Google, Geocode API 会 自动 
处 理 这 些 没 有 邮政 编码 或 者 州 信息 (其 至 写 错 了 ) 的 地 址 ， 然 后 给 你 反馈 标准 的 地 址 信息 。 
例如 ， 用 错误 的 参数 1+Skience+Park+Bostton+MA (其 至 没 邮 编 ) 也 会 反馈 同样 的 结果 。 














我 曾经 在 一 些 任务 中 使 用 过 Geocode API， 不 仅 是 对 用 户 在 网 站 上 填 的 地 址 进行 标准 化 ， 还 
有 采集 网 站 上 看 着 像 地 址 的 信息 ， 用 API 对 它们 重新 处 理 ， 形 成 更 容易 存储 和 搜索 的 数据 。 


你 还 可 以 用 Time zone (时 区 ) API 获取 任意 经 纬度 的 时 区 信息 : 




















https://maps.googleapis.com/maps/api/timezone/json?location=42.3677994,-71.0708 
078&timestamp=1412649030&key=< 你 的 API key» 


服务 器 响应 的 结果 是 : 
{ "dstOffset" : 3600, "rawOffset" : -18000, "status" : "OK", "timeZon 
elId" : "America/New York", "timeZoneName" : "Eastern Daylight Time" } 








Time zone API 需要 用 一 个 Unix 时 间 惟 才能 发 出 请 求 。 它 可 以 让 Google 为 你 提供 一 个 经 过 





邮 








时 区 调整 的 夏令 时 。 即 使 在 那些 时 区 不 受 夏令 时 影响 的 地 区 〈 比 如 凤凰 城 不 实行 夏令 时 )， 
API 请 求 也 是 需要 时 间 戳 的 。 


你 可 以 用 地 点 经 纬度 获取 对 应 的 海拔 高 度 ， 来 结束 我 们 短暂 的 Google 地 图 API 旅程 : 





https://maps.googleapis.com/maps/api/elevation/json?locations=42.3677994, -71.070 
8078&key=< 你 的 API key» 








返回 的 结果 是 该 地 点 海平 面 以 上 的 诲 拔高 度 〈 单 位 是 米 ) ， 其 中 一 个 参数 “resolution” (分 
WES) 的 数值 表示 对 这 个 点 进行 插值 计算 的 海拔 高 度 的 样本 数据 中 与 这 个 点 最 远 的 距离 
(单位 是 米 )。 这 个 值 越 小 ， 表示 计算 出 的 海拔 高 度 的 值 越 精 确 。 



































( "results" : [ { "elevation" : 5.127755641937256, "location" : { "la 
t" : 42.3677994, "lng" : -71.0708078 }, "resolution" : 9.543951988220 
215 } ], "status" : "OK" } 


4.7 解析 JSON 数 据 


在 本 章 中 ， 我 们 介绍 了 许多 不 同类 型 的 API 以 及 它们 的 使 用 方法 ， 也 介绍 了 这 些 API 反馈 
的 一 些 简 单 的 JSON 格式 数据 。 现 在 让 我 们 看 看 如 何 解 析 和 使 用 这 些 信息 。 


本 章 开 始 的 时 候 ， 我 用 过 freegeoip.net 网 站 IP 查询 的 例子 ， 可 以 把 IP 地址 解析 转换 成 地 
理 位 置 : 








http://freegeoip.net/json/50.78.253.58 
我 可 以 获取 这 个 请 求 的 反馈 数据 ， 然 后 用 Python 的 JSON 解析 函数 来 解码 : 


import json 
from urllib.request import urlopen 


def getCountry(ipAddress): 
response = urlopen("http://freegeoip.net/json/"+ipAddress).read() 
.decode('utf-8') 
responseJson - json.loads(response) 
return responseJson.get("country, code") 


print(getCountry("50.78.253.58")) 


这 段 代 码 可 以 打印 出 IP 地址 为 50.78.253.58 的 国家 代码 。 





这 里 用 的 JSON 解析 库 是 Python 标准 库 的 一 部 分 。 只 需要 在 代码 开头 写 上 import json, 
你 就 可 以 使 用 它 了 ! 不 同 于 那些 需要 先 把 JSON 解析 成 一 种 JSON 对 象 或 JSON 节点 的 语 
言 ，Python 使 用 了 一 种 更 加 灵活 的 方式 ， 把 JSON 转换 成 字典 ，JSON 数组 转换 成 列表 ， 
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亚利桑那 州 全 州 不 用 夏令 时 ， 凤 凰 城 是 其 州 府 。 一 一 译 者 注 
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JSON 字符 串 转 换 成 Python 字符 串 。 通 过 这 种 方式 ， 就 可 以 让 JSON 的 获取 和 操作 变 得 非 
常 简单 。 


下 面 的 例子 演示 了 如 何 使 用 Python 的 JSON 解析 库 ， 处 理 JSON 字符 串 中 可 能 出 现 的 不 同 
数据 类 型 : 





7 














import json 


jsonString = '{"arrayOfNums":[{"number":0},{"number":1},{"number":2}], 
"arrayOfFruits":[{"fruit":"apple"},{"fruit":"banana"}, 
("fruit":"pear")]]' 
json0bj = json.loads(jsonString) 


print(json0bj.get("arrayOfNums") ) 
print(json0bj.get("arrayOfNums")[1]) 
print(jsonObj.get("arrayOfNums")[1].get("number")- 
json0bj.get("arrayOfNums")[2].get("number")) 
print(jsonObj.get("arrayOfFruits")[2].get("fruit")) 

















输出 的 结果 是 : 


[£'number': 0}, ('number': 1j, ('number': 2)] 
('number': 1j 

3 

pear 


第 一 行 是 一 个 组 词典 构成 的 列表 对 象 ， 第 二 行 是 一 个 词典 对 象 ， 第 三 行 是 一 个 整数 (第 一 
行 词 典 列 表 里 整 数 的 和 ) ， 第 四 行 是 一 个 字符 串 。 


4.8 回 到 主题 


虽然 ， 有 一 些 新 式 的 网 络 应 用 存在 的 理由 (raison d'etre) 就 是 采集 现 有 的 数据 ， 再 用 更 好 
看 的 形式 展现 出 来 ， 但 是 我 觉得 这 些 应 用 没什么 意义 。 如 果 你 用 API 作为 唯一 的 数据 源 ， 
那么 你 最 多 就 是 复制 别人 数据 库 里 的 数据 ， 不 过 都 是 些 已 经 公布 过 的 “黄花 菜 ”。 真 正 有 
意思 的 事情 ， 是 把 多 个 数据 源 组 合成 新 的 形式 ， 或 者 把 API 作为 一 种 工具 ， 从 全 新 的 视角 
对 采集 到 的 数据 进行 解释 。 


看 介绍 如 何 把 API 和 网 络 数据 采集 结合 起 来 : 看 看 维基 百科 的 贡献 者 们 大 都 在 哪里 。 





























下 












































如 果 你 经 常用 维基 百科 ， 可 能 会 注意 到 词 条 的 编辑 历史 页 面 ， 里 面 是 一 列 编辑 记录 。 如 果 
用 户 先 登入 维基 百科 再 编辑 词 条 ， 他 们 的 用 户 名 就 会 显示 出 来 。 如 果 不 先 登录 就 对 词 条 进 
行 编辑 ， 他 们 的 IP 地 址 就 会 显示 在 编辑 历史 中 ， 如 图 4-4 所 示 。 
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图 4-4; 维基 百科 Python 词 条 的 编辑 历史 页 面 的 匿名 编辑 者 的 IP 地址 


上 图 中 我 们 标注 的 他 地 址 是 121.97.110.145。 用 freegeoip.net 的 API， 我 们 可 以 查 出 这 


个 耳 地 址 的 地 理 位 置 (IP 地 址 有 时 会 改变 地 理 位 置 ) 是 在 菲律宾 (Phillipines) 的 奎 松 


(Quezon), 





adr 


一 个 这 样 的 卫 地 址 并 没什么 意义 ， 但 是 如 果 我 们 可 以 收集 大 量 维基 百科 编辑 者 的 地 理 数 
据 呢 ? 几 年 前 我 做 过 这 件 事 儿 ， 当 时 用 Google 的 地 理 图 形 库 (Geochart library，https:/ 
developers.google.com/chart/interactive/docs/gallery/geochart) 做 了 一 个 显示 维基 百科 英文 版 














的 编辑 者 所 在 位 置 的 可 视图 ， 后 来 又 做 了 其 他 语言 的 版 本 ， 如 图 4-5 所 示 。 
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S 4-5: 用 Google 的 Geochart 库 创 建 的 维基 百科 编辑 者 地 理 位 置 可 视 化 
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首先 做 一 个 采集 维基 百科 的 基本 程序 ， 寻找 编辑 历史 页 面 ， 然 后 把 编辑 历史 里 面 的 了 P 地 址 
找 出 来 ， 这 并 不 难 。 只 要 对 第 3 章 的 代码 做 些 修改 就 可 以 ， 代 码 如 下 所 示 : 











from urllib.request import urlopen 
from bs4 import BeautifulSoup 
import datetime 

import random 

import re 


random.seed(datetime.datetime.now()) 
def getLinks(articleUrl): 
html = urlopen("http://en.wikipedia.org"«articleUrl) 
bsObj = BeautifulSoup(html) 
return bsObj.find("div", ("id":"bodyContent"3).findAll("a", 
hrefzre.compile("^(/wiki/)((2!:).)*$")) 


def getHistoryIPs(pageUrl): 

# 编辑 历史 页 面 URL 链 接 格式 是 ; 

# http://en.wikipedia.org/w/index.php?title-Title in URL&action-history 

pageUrl = pageUrl.replace("/wiki/", "") 

historyUrl = "http: //en.wikipedia.org/w/index.php?title-" 

*pageUrl-«"&action-zhistory" 

print("history url is: "«historyUrl) 

html = urlopen(historyUrl) 

bsObj = BeautifulSoup(html) 

# 找 出 class 属 性 是 "mw-anonuserlink" 的 链接 

# 它们 用 IP 地 址 代 赤 用户 名 

ipAddresses = bsObj.findAll("a", {"class":"mw-anonuserlink"}) 

addressList = set() 

for ipAddress in ipAddresses: 
addressList.add(ipAddress.get text()) 

return addressList 








links = getLinks("/wiki/Python (programming language)") 


while(len(links) » 0): 
for link in links: 
print("------------- ") 
historyIPs = getHistoryIPs(link.attrs["href"]) 
for historyIP in historyIPs: 
print(historyIP) 


newLink = links[random.randint(0, len(links)-1)].attrs["href"] 
links = getLinks(newLink) 


这 个 程序 包括 两 个 函数 : getLinks (第 3 章 里 用 过 ) 和 新 的 函数 getHistoryIPs, 18 3x Bm 
有 mw-anonuserlin 类 里 面 的 链接 信息 (匿名 用 户 的 全 地 址 ， 不 是 用 户 名 )， 返 回 一 个 链 
接 列 表 。 














Python 的 集合 类 型 简介 


到 现在 为 止 ， 我 用 已 经 用 过 两 个 Python 的 数据 结构 来 储存 不 同类 型 的 数据 : 列表 和 词 
典 。 已 经 有 了 两 种 数据 类 型 ， 为 什么 还 要 用 集合 (set) ? 


Python 的 集合 是 无 序 的 ， 就 是 说 你 不 能 用 位 置 来 获得 集合 元 素 对 应 的 值 。 数 据 加 入 集 
合 的 顺序 ， 和 你 重新 获取 它们 的 顺序 ， 很 可 能 是 不 一 样 的 。 在 上 面 的 示例 代码 中 ， 使 
用 集合 的 一 个 好 处 就 是 它 不 会 储存 重复 值 。 如 果 你 要 存储 一 个 已 有 的 值 到 集合 中 ， 集 
合 会 自动 忽略 它 。 因 此 ,我们 可 以 快速 地 获取 历史 编辑 页 面 中 独立 的 I 人 P 地址 ， 不 需要 
考虑 同一 个 编辑 者 多 次 编辑 历史 的 情况 。 


对 于 未 来 可 能 需要 扩展 的 代码 ， 在 决定 使 用 集合 还 是 列表 时 ， 有 两 件 事情 需要 考虑 : 
虽然 列表 选 代 速度 比 集合 稍微 快 一 点 儿 ， 但 集合 查找 速度 更 快 (确定 一 个 对 象 是 否 在 
集合 中 )， 因 为 Python 集合 就 是 值 为 None 的 词典 ， 用 的 是 哈 硕 表 结 构 ， 查 询 速 度 为 
O(1). 











上 面 的 代码 还 用 了 一 些 随 机 的 〈 不 过 对 这 个 示例 是 有 效 的 ) 搜索 模式 来 查找 词 条 的 编 
辑 历 史 。 首 先 获 取 起 始 词 条 连接 的 所 有 词 条 的 编辑 历史 〈 示 例 中 是 Python programming 
language 词 条 ) 。 然 后 ， 随 机 选择 一 个 词 条 作为 起 始点 ， 再 获取 这 个 页 面 连 接 的 所 有 词 条 的 
编辑 历史 。 重 复 这 个 过 程 直 到 页 面 没 有 连接 维基 词 条 为 止 。 


























现在 ， 我 们 获得 了 编辑 历史 的 IP 地 址 数据 ， 把 它们 与 上 一 节 的 getCountry 函数 结合 起 来 ， 
就 可 以 查询 IP 地 址 所 属 的 国家 和 地 区 了 。 我 对 getCountry 函数 做 了 一 点 儿 修 改 ， 处 理 了 
无 效 或 错误 的 IP 地 址 引起 的 “404 Not Found” y (比如 ， 写 到 这 里 时 ，freegeoip.net 不 
能 查询 IPv6 地 址 ， 可 能 会 引起 404 错误 ) : 



































def getCountry(ipAddress): 
try: 
response = urlopen("http://freegeoip.net/json/" 
*ipAddress).read().decode('utf-8') 
except HTTPError: 
return None 
responseJson - json.loads(response) 
return responseJson.get("country code") 


links = getLinks("/wiki/Python (programming language)") 


while(len(links) » 0): 
for link in links: 
print("------------------- ") 
historyIPs = getHistoryIPs(link.attrs["href"]) 
for historyIP in historyIPs: 
country = getCountry(historyIP) 
if country is not None: 
print(historyIP+" is from "+country) 
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newLink = links[random.randint(0, len(links)-1)].attrs["href"] 


links = getLinks(newLink) 


完整 代码 在 http:/www.pythonscraping.comy/code/6-3.txt。 下 面 是 部 分 输 





出 结果 : 


history url is: http://en.wikipedia.org/w/index.php?title-Programming 


paradigm&action-history 
68.183.108.13 is from US 
86.155.0.186 is from GB 
188.55.200.254 is from SA 
108.221.18.208 is from US 
141.117.232.168 is from CA 
76.105.209.39 is from US 
182.184.123.106 is from PK 
212.219.47.52 is from GB 
72.27.184.57 is from JM 
49.147.183.43 is from PH 
209.197.41.132 is from US 
174.66.150.151 is from US 


4.9 再 说 一 点 API 
本 章 我 们 介绍 了 几 个 新 式 API 常用 的 获取 网 络 数据 的 方式 ， 重 点 介绍 








了 有 助 于 网 络 数据 采 


集 工作 的 API 用 法 。 但 是 ， 对 API 的 这 点 儿 介绍 还 是 远 远 不 够 的 ，API 的 内 容 非 常 丰富 ， 
这 里 并 没有 体现 出 API 具有 “许多 不 同 的 软件 都 可 以 通过 相同 的 API 分 享 数据 ”的 特点 。 








由 于 本 书 的 主题 是 网 络 数据 采集 ， 因 此 无 意 成 为 数据 收集 的 百科 全 书 
能 为 你 推荐 一 些 优质 的 资源 ， 帮 助 你 对 这 个 主题 进行 深入 的 研究 。 





， 如 果 你 需要 ， 我 只 


Leonard Richardson, Mike Amundsen 和 Sam Ruby 的 RESTful Web APIs (http://shop.oreilly. 


com/product/0636920028468.do) 为 网 络 API 的 用 法 提供 了 非常 全 面 的 


理论 与 实践 指导 。 另 


外 ，Mike Amundsen 的 精彩 视频 教学 课程 Designing APIs for the Web (http://shop.oreilly. 
com/product/110000125.do), ， 也 可 以 教 你 创建 自己 的 API。 如 果 你 想 把 自己 采集 的 数据 用 





一 种 便捷 的 方式 分 享 出 来 ， 他 的 视频 非常 有 用 。 


虽然 初 看 网 络 数 据 采 集 和 网 络 APT 好 像 完 全 是 两 个 不 同 的 主题 ， 但 是 希望 这 一 章 的 内 容 


可 以 为 你 呈现 出 两 者 在 网 络 数据 收集 这 个 领域 中 相互 补充 的 能 力 。 从 








某 种 意义 上 看 ， 网 络 


API 的 使 用 可 以 作为 网 络 数据 采集 的 一 个 子 集 。 毕 竞 ， 最终 都 是 要 从 网 络 服务 器 收集 数据 ， 
然后 把 它们 解析 成 可 用 的 数据 格式 ， 这 和 你 用 任何 网 络 扑 虫 做 的 事情 一 模 一 样 。 








第 5 章 


存储 数据 





虽然 在 命令 行 里 显示 运行 结果 很 有 意思 ， 但 是 随 着 数据 不 断 增 多 ， 并 且 需 要 进行 数据 分 析 
时 ， 将 数据 打印 到 命令 行 就 不 是 办 法 了。 为 了 可 以 远程 使 用 大 部 分 网 络 仆 虫 ， 你 还 需要 把 
采集 到 的 数据 存储 起 来 。 


本 章 将 介绍 三 种 主要 的 数据 管理 方法 ， 对 绝 大 多 数 应 用 都 适用 。 如 果 你 准备 创建 一 个 网 站 
的 后 端 服务 或 者 创建 自己 的 API， 那 么 可 能 都 需要 让 谎 虫 把 数据 写 和 数据库。 如 有 果 你 需要 
一 个 快速 简单 的 方法 收集 网 上 的 文档 ， 然 后 存 到 你 的 硬盘 里 ， 那 么 可 能 需要 创建 一 个 文件 
流 (file stream) 来 实现 。 如 果 还 要 为 偶然 事件 提 个 醒 儿 ， 或 者 每 天 定时 收集 当天 累计 的 数 
据 ， 就 给 自己 发 一 封 邮件 吧 | 


抛 开 与 网 络 数据 采集 的 关系 ， 大 数据 存储 和 与 数据 交互 的 能 力 ， 在 新 式 的 程序 开发 中 也 已 
经 是 重 中 之 重 了 。 这 一 章 的 内 容 其 实 是 实现 第 二 部 分 许多 示例 的 基础 。 如 果 你 对 自动 数据 
存储 相关 的 知识 不 太 了 解 ， 我 非常 希望 你 至 少 能 浏览 一 下 。 


5.1 媒体 文件 


存储 媒体 文件 有 两 种 主要 的 方式 : 只 获取 文件 URL 链接 ， 或 者 直接 把 源 文 件 下 载 下 来 。 
你 可 以 通过 媒体 文件 所 在 的 URL 链接 直接 引用 它 。 这 样 做 的 优点 如 下 。 


。 爬虫 运行 得 更 快 ， 耗 费 的 流量 更 少 ， 因 为 只 要 链接 ， 不 需要 下 载 文件 。 
。 可 以 节省 很 多 存储 空间 ， 因 为 只 需要 存储 URL 链接 就 可 以 。 

。 存储 URL 的 代码 更 容易 写 ， 也 不 需要 实现 文件 下 载 代码 。 

。 不 下 载 文件 能 够 降低 目标 主机 服务 器 的 负载 。 
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不 过 这 么 做 也 有 一 些 缺 点 。 


x 
能 


些 内 般 在 你 的 网 站 或 应 用 中 的 外 站 URL. 链接 被 称 为 盗 链 (hotlinking)， 使 用 盗 链 可 
会 让 你 麻烦 不 断 ， 每 个 网 站 都 会 实施 防盗 链 措施 。 





因为 你 的 链接 文件 在 别人 的 服务 器 上 ， 记 以 你 的 应 用 就 要 跟着 别人 的 节奏 运行 了 。 
盗 链 是 很 容易 改变 的 。 如 果 你 把 盗 链 图 片 放 在 博客 上 ， 要 是 被 对 方 服务 器 发 现 ， 很 可 能 
被 恶搞 。 如 果 你 把 URL 链接 存 起 来 准备 以 后 再 用 ， 可 能 用 的 时 候 链接 已 经 失效 了 ， 或 


者 是 变 成 了 完全 无 关 的 内 容 。 
































现实 中 的 网 络 浏 览 器 不 仅 可 以 请 求 HTML. 页 面 并 切换 页 面 ， 它 们 也 会 下 载 访问 页 面 上 
所 有 的 资源 。 下 载 文件 会 让 你 的 爬虫 看 起 来 更 像 是 人 在 浏览 网 站 ， 这 样 做 反而 有 好 处 。 
如 果 你 还 在 犹 光 究竟 是 存储 文件 ， 还 是 只 存储 文件 的 URL 链接 ， 可 以 想 想 这 些 文件 是 要 


多 次 使 用 ， 还 是 放 进 数据 库 之 后 就 只 是 等 着 “ 落 灰 ”， 再 也 不 会 被 打开 。 如 果 答 案 是 后 者 ， 
那么 最 好 还 是 只 存储 这 些 文件 的 URL 吧 。 如 果 答 案 是 前 者 ， 那 么 就 继续 往 下 看 ! 









































在 Python 3.x 版 本 中 ，urtLLib.request.urLretrieve 可 以 根据 文件 的 URL. 下 载 文 件 : 





from urllib.request import urlretrieve 
from urllib.request import urlopen 
from bs4 import BeautifulSoup 


html = urlopen("http://www.pythonscraping.com") 

bsObj = BeautifulSoup(html) 

imagelocation = bsObj.find("a", {"id": "logo")).find("img")["src"] 
urlretrieve (imageLlocation, "logo.jpg") 











这 段 程序 从 http;//pythonscraping.com F logo 图 片 ， 然 后 在 程序 运行 的 文件 夹 里 保存 为 
logo.jpg 文件 。 

如 果 你 只 需要 下 载 一 个 文件 ， 而 且 知 道 如 何 获取 它 ， 以 及 它 的 文件 类 型 ， 这 么 做 就 可 以 
了 。 但 是 大 多 数 仆 虫 都 不 可 能 一 天 只 下 载 一 个 文件 。 下 面 的 程序 会 把 http://pythonscraping. 
com 主页 上 所 有 src 属性 的 文件 都 下 载 下 来 : 





























import os 

from urllib.request import urlretrieve 
from urllib.request import urlopen 
from bs4 import BeautifulSoup 


downloadDirectory = "downloaded" 
baseUrl = "http://pythonscraping.com" 


def getAbsoluteURL(baseUrl, source): 
if source.startswith("http://www."): 
url = "http://"*source[11:] 
elif source.startswith("http://"): 
url = source 
elif source.startswith("www."): 
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url 
url 
else: 
url = baseUrl-«"/"«source 
if baseUrl not in url: 
return None 
return url 


source[4:] 
"http: //"*source 


def getDownloadPath(baseUrl, absoluteUrl, downloadDirectory): 
path = absoluteUrl.replace("www.", "") 
path = path.replace(baseUrl, "") 
path = downloadDirectory-path 
directory = os.path.dirname(path) 


if not os.path.exists(directory): 
os.makedirs(directory) 


return path 


html = urlopen("http://www.pythonscraping.com") 
bsObj = BeautifulSoup(html) 
downloadList - bsObj.findAll(src-True) 


for download in downloadList: 
fileUrl = getAbsoluteURL(baseUrl, download["src"]) 
if fileUrl is not None: 
print(fileUrl) 


urlretrieve(fileUrl, getDownloadPath(baseUrl, fileUrl, downloadDirectory)) 


程序 运行 注意 事项 


你 知道 从 网 上 下 载 未 知 文件 的 那些 警告 吗 ? 这 个 程序 会 把 页 面 上 所 有 的 文件 
下 载 到 你 的 硬盘 里 ， 可 能 会 包含 一 些 bash 脚本 、.exe 文件 ， 甚 至 可 能 是 恶意 
软件 (malware), 








如 果 你 之 前 从 没有 运行 过 任何 下 载 到 电脑 里 的 文件 ， 电 脑 就 是 安全 的 吗 ? 尤 
其 是 当 你 用 管理 员 权限 运行 这 个 程序 时 ， 你 的 电脑 基本 已 经 处 于 危险 之 中 。 
如 果 你 执行 了 网 页 上 的 一 个 文件 ， 那 个 文件 把 自己 传送 到 了 .…/.././../usrbin/ 
python 里 面 ， 会 发 生 什么 呢 ? 等 下 一 次 你 再 运行 Python 程序 时 ， 你 的 电脑 
就 可 能 会 安装 恶意 软件 。 




















这 个 程序 只 是 为 了 演示 ， 请 不 要 随意 运行 它 ， 因 为 这 里 没有 对 所 有 下 载 文件 
的 类 型 进行 检查 ， 也 不 应 该 用 管理 员 权限 运行 它 。 记 得 经 常备 份 重要 的 文 
件 ， 不 要 在 硬盘 上 存储 敏感 信息 ， 小 心 驶 得 万 年 船 。 









































这 个 程序 首先 使 用 Lambda 函数 (第 2 章 介绍 过 ) 选择 首页 上 所 有 带 src 属性 的 标签 。 然 





后 对 URL 链接 进行 清理 和 标准 化 ， 获 得 文件 的 绝对 路 径 〈 而 且 去 掉 了 外 链 )。 最 后 ， 每 4 


AM 
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文件 都 会 下 载 到 程序 所 在 文件 夹 的 downloaded 文件 里 。 


这 里 Python 的 os 模块 用 来 获取 每 个 下 载 文件 的 目标 文件 夹 ， 建 立 完整 的 路 径 。os 模块 是 
Python 与 操作 系统 进行 交互 的 接口 ， 它 可 以 操作 文件 路 径 ， 创 建 目 录 ， 获 取 运 行进 程 和 环 
说 变量 的 信息 ， 以 及 其 他 系统 相关 的 操作 。 


5.2 ”把 数据 存储 到 CSV 


CSV (Comma-Separated Values， 逗 号 分 隔 值 ) 是 存储 表格 数据 的 常用 文件 格式 。Microsoft 
Excel 和 很 多 应 用 都 支持 CSV 格式 ， 因 为 它 很 简洁 。 下 面 就 是 一 个 CSV 文件 的 例子 : 









































fruit,cost 
apple,1.00 
banana,0.30 
pear,1.25 


和 Python 一 样 ，CSV 里 留 白 (whitespace) 也 是 很 重要 的 : 每 一 行 都 用 一 个 换行 符 分 隔 ， 
AUT iR HANS (因此 也 叫 “ 喜 号 分 隔 值 ”")。CSYV 文件 还 可 以 用 Tab 字符 或 其 他 字 
符 分 隔行 ， 但 是 不 太 常 见 ， 用 得 不 多 。 











如 果 你 只 想 从 网 页 上 把 CSV 文件 下 载 到 电脑 里 ， 不 打算 做 任何 解析 和 修改 ， 那 么 这 节 后 
看 的 内 容 就 没 必 要 再 看 了 。 只 要 用 上 一 节 里 介绍 的 文件 下 载 方法 下 载 并 保存 为 CSV. 格式 
就 行 了 。 









































Python 的 csv 库 可 以 非常 简单 地 修改 CSV 文件 ， 甚 至 从 零 开 始 创建 一 个 CSV 文件 : 
import csv 


csvFile = open("../files/test.csv", 'w+') 
try: 
writer = csv.writer(csvFile) 
writer.writerow(('number', 'number plus 2', 'number times 2')) 
for i in range(10): 
writer.writerow( (i, i42, i*2)) 
finally: 
csvFile.close() 


这 里 提 个 醒 儿 : Python 新 建文 件 的 机 制 考虑 得 非常 周到 (bullet-proof)。 如 果 ./files/test.csv 
不 存在 ，Python 会 自动 创建 文件 (不 会 自动 创建 文件 来)。 如 果 文件 已 经 存在 ，Python 会 
用 新 的 数据 覆盖 test.csv 文件 。 





运行 完成 后 ， 你 会 看 到 一 个 CSV 文件 : 


number,number plus 2,number times 2 
0,2,0 
1,3,2 
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2,4,4 


网 络 数据 采集 的 一 个 常用 功能 就 是 获取 HTML 表格 并 写 入 CSV 文件 。 维 基 百 科 的 文本 编 
辑 器 对 比 词 条 (https:Wen.wikipedia.org/wiki/Comparison_of text editors) 中 用 了 许多 复杂 
的 HTML 表格 ， 用 到 了 颜色 、 链 接 、 排 序 ， 以 及 其 他 在 写 入 CSV 文件 之 前 需要 忽略 的 
HTML 元 素 。 用 BeautifulSoup 和 get_text() 函数 ， 你 可 以 用 十 几 行 代码 完成 这 件 事 : 














import csv 
from urllib.request import urlopen 
from bs4 import BeautifulSoup 


html = urlopen("http://en.wikipedia.org/wiki/Comparison of text editors") 
bsObj = BeautifulSoup(html) 

# 主 对 比 表 格 是 当前 页 面 上 的 第 一 个 表格 

table = bsObj.findAll("table",{"class":"wikitable"})[0] 

rows = table.findAll("tr") 





csvFile = open("../files/editors.csv", 'wt', newline-", encoding-'utf-8') 
writer = csv.writer(csvFile) 
try: 
for row in rows: 
csvRow - [] 
for cell in row.findAll(['td', 'th']): 
csvRow.append(cell.get text()) 
writer.writerow(csvRow) 
finally: 
csvFile.close() 





实际 工作 中 写 此 程序 之 前 的 注意 事项 
如 果 你 有 很 多 HTML 表格 ， 且 每 个 都 要 转换 成 CSV 文件 ， 或 者 许多 HTML 表格 都 要 
汇总 到 一 个 CSV 文件， 那么 把 这 个 程序 整合 到 扎 虫 里 以 解决 问题 非常 好 。 但 是 ， 如 果 
你 只 需要 做 一 次 这 种 事情 ， 那 么 更 好 的 办 法 就 是 : 复制 粘贴 。 选 择 HTML 表格 内 容 然 
后 粘贴 到 Excel 文件 里 ， 可 以 另存 为 CSV 格式 ,不 需要 写 代码 就 能 搞定 1 

















个 程序 会 在 程序 上 一 层 目 录 的 files 文件 夹 里 生成 一 个 CSV 文件 ../files/editors.csv 把 


个 程序 分 享 给 那些 不 熟悉 MySQL 的 朋友 们 吧 ! 








这 
这 


5.3 MySQL 


MySQL (官方 发 音 是 “My es-kew-el”， 但 很 多 人 都 说 成 “My Sequel") 是 目前 最 受 欢迎 
的 开源 关系 型 数据 库 管 理 系统 。 一 个 开源 项 目 具 有 如 此 之 竞争 力 实 在 是 令 人 意外 ， 它 的 流 
行程 度 正在 不 断 地 接近 另外 两 个 闭 源 的 商业 数据 库 系 统 : 微软 的 SQL Server 和 甲骨 文 的 
Oracle 数据 库 (MySQL 在 2010 年 被 甲骨 文 收购 )。 
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它 的 流程 程度 实在 是 名 符 其 实 。 对 大 多 数 应 用 来 说 ，MySQL 都 是 不 二 选择 。 它 是 一 种 
非常 灵活 、 稳 定 、 功 能 齐全 的 DBMS， 许 多 顶级 的 网 站 都 在 用 它 : YouTube’, Twitter 和 


Facebook? 等 。 








因为 它 受 众 广 泛 ， 免 费 ， 开 箱 即 用 ， 所 以 它 也 是 网 络 数据 采集 项 目 中 常用 的 数据 库 ， 我 们 
将 在 本 书后 面 的 示例 中 使 用 它 。 

















H 








“关系 型 ”数据 库 ? 
“关系 型 数据 ”就 是 有 关联 的 数据 。 就 是 这 么 简单 ! 
开 个 玩笑 | 当 计算 机 科学 家 说 起 关系 型 数据 时 ， 他 们 指 的 是 那些 并 非 孤立 的 数据 一 一 
它们 的 属性 与 其 他 的 数据 是 有 关联 的 。 例 如 ,“ 用 户 A 在 学 校 B 上 学 ”， 这 里 用 户 A 
在 数据 库 的 “用 户 ” 表 中 ， 而 学 校 B 是 在 数据 库 的 “学 校 ” 表 中 。 


在 本 章 后 面 的 内 容 里 ， 我 们 将 介绍 数据 关系 的 不 同类 型 ， 以 及 如 何 有 效 地 把 数据 存储 
Z] MySQL (或 其 他 关系 型 数据 库 ) 里 。 











5.3.1 安装 MySQL 

如 果 你 第 一 次 接触 MySQL， 安 装 数据 库 听 着 可 能 有 点 儿 吓 人 〈 如 果 你 是 老手 ， 可 以 跳 过 
这 部 分 内 容 )。 其 实 ， 安 装 方法 和 安装 其 他 软件 一 样 简单 。 归 根 到 底 ，MySQL 就 是 由 一 系 
列 数据 文件 构成 的 ， 储 存在 你 的 远 端 服务 器 或 本 地 的 电脑 上 ， 里 面包 含 了 数据 库存 储 的 所 
有 信息 。MySQL 软件 层 提 供 了 一 种 与 数据 交互 的 便捷 操作 方法 。 例 如 ， 下 面 的 命令 把 用 
户 表 users 中 名 字 为 “Ryan” 的 用 户 找 出 来 : 









































SELECT * FROM users WHERE firstname = "Ryan" 





如 果 你 用 Ubuntu (或 其 他 Debain 分 支 系统 ) , Z MySQL 很 简单 : 
$sudo apt-get install mysql-server 


只 要 稍微 留意 一 下 安装 过 程 ， 看 看 电脑 是 不 是 可 以 满足 安装 的 内 存 需 求 ， 然 后 在 安装 提示 
的 地 方 为 root 用 户 设置 新 密码 就 可 以 了 。 




















Mac OS X fill Windows 系统 的 安装 过 程 有 点 儿 复杂 。 如 果 你 没有 甲骨 文 账户 ， 下 载 MySQL 
安装 包 之 前 需要 先 注 册 一 下 。 








注 1: Joab Jackson, ^YouTube Scales MySQL with Go Code," PCWorld, December 15, 2012 (http://bit. 
Iy/ILWVmc8), 

iE 2: Jeremy Cole and Davi Arnaut, "MySQL at Twitter," The Twitter Engineering Blog, April 9, 2012 (http://bit. 
Iy/IKHDKns), 

iE 3: "MySQL and Database Engineering: Mark Callaghan,” March 4, 2012. (http://on.fb.me/I RFEMqvw), 
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如 果 你 用 Mac OS X 系 统 ， 请 先 下 载 对 应 的 安装 包 (http//dev.mysgl.com/downloads/ 
mysql/) 。 

选择 .dmg 安装 包 ， 登 入 网 站 或 者 创建 一 个 账户 ， 开 始 下 载 文件 。 下 载 完 成 后 打开 安装 包 ， 
你 会 看 到 一 个 简单 的 安装 向 导 (图 5-1). 























eoo % Install MySQL 5.6.20-community a 


Welcome to the MySQL 5.6.20-community Installer 





Thank you for choosing MySQL Server, the popular open 


e Introduction source database system by Oracle. This package will 
6 License install the MySQL Server software on your system. 

6 Destination Select Online resources: 

® Installation Type * MySQL Reference Manual 





e www.MySQL.com 


9 Installation * www.Oracle.com 


6€ Summary 











& 5-1; Mac OSX 的 MySQL 安装 工具 














使 用 默认 安装 步骤 就 可 以 ， 本 书后 面 使 用 MySQL 都 是 假设 你 用 的 默认 安装 步骤 。 


























如 果 觉 得 下 载 安 装 包 再 执行 安装 工具 太 无 聊 ， 也 可 以 用 Mac OS X 的 包 管理 器 Homebrew 
(http://brew.sh/) 安装 。 当 Homebrew 安装 好 以 后 ， 用 下 面 的 命令 安装 MySQL: 








$brew install mysql 


Homebrew 是 一 个 伟大 的 开源 工具 ， 与 Python 包 完 美 结 合 。 其 实 ， 本 书 使 用 的 大 多 数 
Python 第 三 方 库 都 可 以 用 Homebrew 安装 。 如 果 你 还 没 用 过 ， 强 烈 推 荐 你 试 一 下 1 








Mac OS XX 的 MySQL 安装 好 之 后 ， 你 可 以 用 下 面 的 命令 启动 MySQL 服务 器 : 


$cd /usr/local/mysql 
$sudo ./bin/mysqld safe 


在 Windows 系统 上 ， 安 装 和 运行 MySQL 更 复杂 一 些 ， 但 是 有 个 方便 的 安装 工具 (http:/ 
dev.mysql.com/downloads/windows/installer/) 可 以 简化 这 个 过 程 (图 5-2). 
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Welcome MySOL 


The MySQL Installer guides you through the installation and configuration of your 
MySQL products. Run it from the Start Menu to perform maintenance tasks later. 


Select one of the actions below: 


Install MySQL Products 
Guide you through the installation and configuration of your 
MySQL products. 


you can benefit the most. 


Resources 
Get more information on how to install MySQL and configure it 
to run efficiently on your machine. 


About MySQl 
Learn more about MySQL products and better understand how 


Copyright © 2014, Oracle and/or its affilates, All rights reserved, Orade is a registered trademark of . 
Orade Corporation and/or its affiliates. Other names may be trademarks of their respective owners. ORACLE 














图 5-2: MySQL Windows 安装 工具 .png 


用 默认 选项 安装 MySQL 就 可 以 ， 不 过 有 一 个 地 方 要 注意 : 在 Setup Type (类 型 设置 ) 页 
面 ， 建 议 你 选择 “Server Only”( 只 选 服务 器 ) 选项 ， 这 可 以 避免 安装 一 堆 微 软 的 软件 和 库 
文件 。 


然后 ， 你 就 可 以 用 默认 设置 安装 ， 跟 着 提示 一 步 步 操作 就 可 以 启动 MySQL 服务 器 了 。 


5.3.2 ”基本 命令 


MySQL 服务 器 启动 之 后 ， 有 很 多 种 方法 可 以 与 数据 库 交 互 。 因 为 有 很 多 工具 是 图 形 界面 ， 
所 以 你 不 用 MySQL 的 命令 行 〈 或 者 很 少 用 命令 行 ) 也 能 管理 数据 库 。 像 phpMyAdmin 和 
MySQL Workbench 这 类 工具 都 可 以 很 容易 地 实现 数据 的 查看 、 排 序 和 新 建 等 工作 。 但 是 ， 
掌握 命令 行 操作 数据 库 依然 是 很 重要 的 。 


除了 用 户 自 定 义 变量 名 (MySQL 5.x 版 本 是 不 区 分 大 小 写 的 ，MySQL 5.0 之 前 的 版 本 是 不 
区 分 大 小 写 的 ) MySQL 语句 是 不 区 分 大 小 写 的 。 例 如 ，SELECT 和 sEIECT 是 一 样 的 ， 不 
过 习惯 上 写 MySQL 语句 的 时 候 所 有 的 MySQL 关键 词 都 用 大 写 。 大 多 数 开发 者 还 喜欢 用 
小 写字 和 母 表示 数据 表 和 数据 库 的 名 称 ， 虽 然 这 个 标准 经 常 不 被 注意 。 





























当 你 首次 登入 MySQL 的 时 候 ， 里 面 是 没有 数据 库存 放 数据 的 。 你 可 以 创建 一 个 : 








>CREATE DATABASE scraping; 


因为 每 个 MySQL 实例 可 以 有 多 个 数据 库 ， 所 以 使 用 某 个 数据 库 之 前 需要 指定 数据 库 的 
名 称 : 








>USE scraping; 


从 现在 开始 (直到 关闭 MySQL. 链接 或 切换 到 另 一 个 数据 库 之 前 )， 所 有 的 命令 都 运行 在 这 
个 新 的 “scraping” 数 据 库 里 面 。 


所 有 操作 看 着 都 非常 简单 。 那 么 ， 在 数据 库 里 创建 数据 表 的 方法 应 该 也 类 似 吧 ?让 我 们 在 
数据 库 里 创建 一 个 表 来 存储 采集 的 网 页 : 























>CREATE TABLE pages; 





NS 


结果 显示 错误 : 


ERROR 1113 (42000): A table must have at least 1 column 





和 数据 库 不 同 ，MySQL 数据 表 必 须 至 少 有 一 列 ， 否 则 不 能 创建 。 为 了 在 MySQL 里 定义 字 
段 (数据 列 )， 你 必须 在 CREATE TABLE «tablename» 语句 后 面 ， 把 字段 的 定义 放 进 一 个 带 括 
号 的 、 内 部 由 逗号 分 隔 的 列表 中 : 





>CREATE TABLE pages (id BIGINT(7) NOT NULL AUTO INCREMENT, title VARCHAR(200), 
content VARCHAR(10000), created TIMESTAMP DEFAULT CURRENT TIMESTAMP, PRIMARY KEY 
(td)); 


每 个 字段 定义 由 三 部 分 组 成 





。 名 称 (id, title, created 等 ) 
。 数据 类 型 (BIGINT(7), VARCHAR, TIMESTAMP) 
。 其 他 可 选 属 性 (NOT NULL AUTO INCREMENT) 





在 字段 定义 列表 的 最 后 ， 还 要 定义 一 个 “主键 ”(key)。MySQL 用 这 个 主键 来 组 织 表 的 内 
容 ， 便 于 后 面 快速 查询 。 在 本 章 后 面 的 内 容 里 ， 我 将 介绍 如 何 调 整 这 些 主键 以 提高 数据 库 
的 查询 速度 ， 但 是 现在 ， 用 表 的 id 列 作为 主键 就 可 以 。 






































语句 执行 之 后 ， 你 可 以 用 DESCRIBE 查看 数据 表 的 结构 : 


> DESCRIBE pages; 


+--------- +---------------- +------ +----- +------------------- +---------------- + 
| Field | Type | Null | Key | Default | Extra | 
+--------- +---------------- +------ +----- +------------------- +---------------- + 
| id | bigint(7) | NO | PRI | NULL | auto_increment | 
| title | varchar(200) | YES | | NULL | | 





存储 数据 | 69 


| content | varchar(10000) | YES | | NULL | | 
| created | timestamp | NO | | CURRENT TIMESTAMP | | 


4 rows in set (0.00 sec) 


当然 ， 这 还 是 一 个 空 表 。 你 可 以 在 pages 表 里 插 入 一 些 测试 数据 ， 如 下 所 示 : 











> INSERT INTO pages (title, content) VALUES ("Test page title", "This is some te 
st page content. It can be up to 10,000 characters long."); 


需要 注意 的 是 ， 虽 然 pages € HU Vu ^E Et (id, title, content, created), 但 实际 上 
你 只 需要 插入 两 个 字段 (title 和 content) 的 数据 即 可 。 因 为 id 字段 是 自动 递增 的 (每 
次 新 插入 数据 行 时 MySQL 自动 增加 1)， 通常 不 用 处 理 。 另 外 ，created 字段 的 类 型 是 
timestamp ， 默 认 就 是 数据 加 入 时 的 时 间 戳 。 











当然 ， 我 们 也 可 以 自 定义 四 个 字段 的 内 容 : 





INSERT INTO pages (id, title, content, created) VALUES (3, "Test page title", " 
This is some test page content. It can be up to 10,000 characters long.", "2014- 
09-21 10:25:32"); 


只 要 你 定义 的 整数 在 数据 表 的 id 字段 里 没有 ， 它 就 可 以 顺利 插入 数据 表 。 但 是 ， 这 么 做 
非常 不 好 ; 除非 万 不 得 已 (比如 程序 中 断 漏 了 一 行 数据 )， 否 则 让 MySQL 自己 处 理 id 和 


timestamp 字段 。 











现在 表 里 有 一 些 数据 了 ， 你 可 以 用 很 多 方法 来 选择 这 些 数据 。 下 面 是 几 个 SELECT 语句 的 
示例 : 


>SELECT * FROM pages WHERE id = 2; 


这 条 语句 告诉 MySQL, “M pages 表 中 把 id 字段 中 等 于 2 的 整 行 数据 全 挑选 出 来 "。 这 个 
星 号 (*) 是 通配符 ， 表 示 所 有 字段 ， 这 行 语句 会 把 满足 条 件 (HERE id = 2) 的 所 有 字段 
都 显示 出 来 。 如 果 id 字段 里 没有 任何 一 行 等 于 2， 就 会 返回 一 个 空 集 。 例 如 ， 下 面 这 个 不 
区 分 大 小 写 的 查询 ， 会 返回 title 字段 里 包含 “test” 的 所 有 行 (% 符合 表示 MySQL 字符 
串通 配 符 ) 的 所 有 字段 : 












































>SELECT * FROM pages WHERE title LIKE "%test%"; 





但 是 ， 如 果 你 的 表 有 很 多 字段 ， 而 你 只 想 返 回 部 分 字段 怎么 办 ?你 可 以 不 用 星 号 ， 而 用 下 
面 的 方式 : 




















>SELECT id, title FROM pages WHERE content LIKE "%page content*"; 





这 样 就 只 会 返回 title 字段 包含 “page content” 的 所 有 行 的 id 和 title 两 个 字段 了 。 








DELETE 语句 语法 与 SELECT 语句 类 似 : 
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>DELETE FROM pages WHERE id = 1; 


由 于 数据 库 的 数据 删除 后 不 能 恢复 ， 所 以 在 执行 DELETE 语句 之 前 ， 建 议 用 SELECT 确认 
一 下 要 删除 的 数据 (本 例 中 ， 就 是 用 SELECT * FROM pages WHERE id = 1 查看 )， 然 后 把 
SELECT * 换 成 DELETE 就 可 以 了 ， 这 会 是 一 个 好 习惯 。 很 多 程序 员 都 有 过 一 些 DELETE 误 操 
作 的 伤心 往事 ， 还 有 一 些 恐 怖 故事 就 是 有 人 慌乱 中 忘 了 在 语句 中 放 WHERE， 结 果 把 所 有 客 
户 数据 都 删除 了 。 别 让 这 种 事 发 生 在 你 身上 | 


还 有 一 个 需要 介绍 的 语句 是 UPDATE: 

















>UPDATE pages SET title="A new title", content="Some new content" WHERE id-2; 








结合 本 书 的 主题 ， 后 面 我 们 就 只 用 这 些 基 本 的 MySQL 语句 ， 做 一 些 简单 的 数据 查询 、 创 
建 和 更 新 工作 。 如 果 你 对 这 个 强大 数据 库 的 命令 和 技术 感 兴趣 ， 推 荐 你 去 看 Paul DuBois 
的 MySQL Cookbook (http://shop.oreilly.com/product/0636920032274.do) 。 



































5.3.3 与 Python 整合 


Python 没有 内 置 的 MySQL 支持 工具 。 不 过 ， 有 很 多 开源 的 库 可 以 用 来 与 MySQL 做 交互 ， 
Python 2.x 和 Python 3.x 版 本 都 支持 。 最 有 名 的 一 个 库 就 是 PyMySQL (https://github.com/ 
PyMySQL/PyMySQL ) 。 





写 到 这 里 的 时 候 ，PyMySQL 的 版 本 是 0.6.2， 你 可 以 用 下 面 的 命令 下 载 并 安装 它 : 





$ curl -L https://github.com/PyMySQL/PyMySQL/tarball/pymysql-0.6.2 | tar xz 
$ cd PyMySQL-PyMySQL - £953785/ 
$ python setup.py install 


如 有 果 需 要 更 新 ， 请 检查 最 新 版 的 PYMySQL， 并 修改 第 一 行 下 载 链接 中 的 版 本 号 进行 更 新 。 


安装 完成 之 后 ， 你 就 可 以 使 用 PyMySQL 包 了 。 如 果 你 的 MySQL 服务 器 处 于 运行 状态 ， 
应 该 就 可 以 成 功 地 执行 下 面 的 命令 (记得 把 root 账户 密码 加 进去 ) : 

















import pymysql 

conn = pymysql.connect(host-'127.0.0.1', unix socket-'/tmp/mysql.sock', 
user-'root', passwd-zNone, db-'mysql') 

cur = conn.cursor() 

cur.execute("USE scraping") 


cur.execute("SELECT * FROM pages WHERE id-1") 
print(cur.fetchone()) 

cur.close() 

conn.close() 


这 段 程序 有 两 个 对 象 : 连接 对 象 (conn) 和 光标 对 象 (cur), 
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连接 /光标 模式 是 数据 库 编 程 中 常用 的 模式 ， 不 过 刚刚 接触 数据 库 的 时 候 ， 有 些 用 户 很 难 
区 分 两 种 模式 的 不 同 。 连 接 模 式 除了 要 连接 数据 库 之 外 ， 还 要 发 送 数 据 库 信息 ， 处 理 回 深 
操作 〈 当 一 个 查询 或 一 组 查询 被 中 断 时 ， 数 据 库 需 要 回 到 初始 状态 ， 一 般 用 事务 控制 手段 
实现 状态 回 滚 ) ， 创 建新 的 光标 对 象 ， 等 等 。 


而 一 个 连接 可 以 有 很 多 个 光标 。 一 个 光标 跟踪 一 种 状态 (state) 信息 ， 比 如 跟踪 数据 库 的 
使 用 状态 。 如 果 你 有 多 个 数据 库 ， 且 需要 向 所 有 数据 库 写 内 容 ， 就 需要 多 个 光标 来 处 理 。 
光标 还 会 包含 最 后 一 次 查询 执行 的 结果 。 通 过 调用 光标 函数 ， 比 如 cur.fetchone()， 可 以 
获取 查询 结果 。 


用 完 光标 和 连接 之 后 ， 千 万 记得 把 它们 关闭 。 如 果 不 关闭 就 会 导致 连接 泄漏 (connection 
leak)， 造 成 一 种 未 关闭 连接 现象 ， 即 连接 已 经 不 再 使 用 ,但 是 数据 库 却 不 能 关闭 ， 因 为 数 
据 库 不 能 确定 你 还 要 不 要 继续 使 用 它 。 这 种 现象 会 一 直 耗 费 数据 库 的 资源 ， 所 以 用 完 数据 
库 之 后 记得 关闭 连接 ! 


刚 开始 的 时 候 ， 你 最 想 做 的 事情 可 能 就 是 把 采集 的 结果 保存 到 数据 库 里 。 让 我 们 用 前 面 维 
基 百 科 怜 虫 的 例子 来 演示 一 下 如 何 实现 数据 存储 。 


在 进行 网 络 数据 采集 时 ， 处 理 Unicode 字符 串 是 很 痛苦 的 事情 。 默 认 情 况 下 ，MYySQL 也 
不 支持 Unicode 字符 处 理 。 不 过 你 可 以 设置 这 个 功能 (这 么 做 会 增加 数据 库 的 占用 空间 )。 
因为 在 维基 百科 上 我 们 难免 会 遇 到 各 种 各 样 的 字符 ， 所 以 最 好 一 开始 就 让 你 的 数据 库 支 持 


Unicode: 































































































ALTER DATABASE scraping CHARACTER SET = utf8mb4 COLLATE = utf8mb4 unicode ci; 
ALTER TABLE pages CONVERT TO CHARACTER SET utf8mb4 COLLATE utf8mb4 unicode ci; 
ALTER TABLE pages CHANGE title title VARCHAR(200) CHARACTER SET utf8mb4 COLLATE 
utf8mb4 unicode ci; 

ALTER TABLE pages CHANGE content content VARCHAR(10000) CHARACTER SET utf8mb4 CO 
LLATE utf8mb4 unicode ci; 


这 四 行 语句 改变 的 内 容 有 : 数据 库 、 数 据 表 ， 以 及 两 个 字段 的 默认 编码 都 从 utf8mb4 
(严格 说 来 也 属于 Unicode， 但 是 对 大 多 数 Unicode 字符 的 支持 都 非常 不 好 ) 转变 成 了 


utf8mb4 unicode ci, 

















你 可 以 在 title 或 content 字段 中 插入 一 些 德语 变 音 符 (umlauts) 或 汉语 字符 ， 如 果 没 有 
错误 就 表示 转换 成 功 了 。 


现在 数据 库 已 经 准备 好 接收 维基 百科 的 各 种 信息 了 ， 你 可 以 用 下 面 的 程序 来 存储 数据 : 











from urllib.request import urlopen 
from bs4 import BeautifulSoup 
import re 

import datetime 

import random 





import pymysql 


conn = pymysql.connect(host-'127.0.0.1', unix socket-'/tmp/mysql.sock', 
user-'root', passwd-None, db-'mysql', charset-'utf8') 


cur = conn.cursor() 
cur.execute("USE scraping") 


random.seed(datetime.datetime.now()) 


def store(title, content): 


cur.execute("INSERT INTO pages (title, content) VALUES (\"%s\", 


\"%s\")", (title, content)) 
cur.connection.commit() 


def getLinks(articleUrl): 
html = urlopen("http://en.wikipedia.org'"«articleUrl) 
bsObj = BeautifulSoup(html) 
title = bsObj.find("hi").get text() 
content = bsObj.find("div", ["id":"mw-content-text"]).find( 
store(title, content) 
return bsObj.find("div", ("id":"bodyContent")).findAll("a", 
hrefzre.compile("^(/wiki/)((2!:).)*$")) 


links = getLinks("/wiki/Kevin Bacon") 
try: 
while len(links) » 0: 


"p").get text() 


newArticle - links[random.randint(0, len(links)-1)].attrs["href"] 


print(newArticle) 
links = getLinks(newArticle) 
finally: 
cur.close() 
conn.close() 


这 里 有 几 点 需要 注意 : 首先 ，charset='utf8' 要 增加 到 连接 字符 串 里 。 这 是 让 连接 conn 把 








所 有 发 送 到 数据 库 的 信息 都 当成 UTF-8 编码 格式 (当然 ， 前 提 是 数据 
成 UTF-8), 


然后 要 注意 的 是 store 函数 。 它 有 两 个 参数 : title 和 content， 并 把 
个 INSERT 语句 中 并 用 光标 执行 ， 然 后 用 光标 进行 连接 确认 。 这 是 一 个 
离 的 好 例子 ， 当 光标 里 存储 了 一 些 数据 库 与 数据 库 上 下 文 (context) 
连接 的 确认 操作 先 将 信息 传 进 数据 库 ， 再 将 信息 插入 数据 库 。 


最 后 要 注意 的 是 ，finally 语句 是 在 程序 主 循环 的 外 面 ， 代 码 的 最 底 | 
无 论 程序 执行 过 程 中 如 何 发 生 中 断 或 抛 出 异常 〈 当 然 ， 因 为 网 络 很 复 








库 默 认 编 码 已 经 设置 


这 两 个 参数 加 到 了 一 
让 光标 与 连接 操作 分 
的 信息 时 ， 需 要 通过 


下 。 这 样 做 可 以 保证 ， 
杂 ， 你 得 随时 准备 遭 








遇 异 常 )， 光 标 和 连接 都 会 在 程序 结束 前 立即 关闭 。 无 论 你 是 在 采集 
打开 连接 的 数据 库 ， 用 try... finally 都 是 一 个 好 主意 。 











虽然 PyMySQL 规模 并 不 大 ,但 是 里 面 有 一 些 非 常 实用 的 函数 本 书 并 没有 介绍 。 具 体 请 参 

















75$ Python 的 DBAPI 标准 文档 (http://legacy.python.org/dev/peps/pep-02 





49/) 。 
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5.3.4 ”数据 库 技术 与 最 佳 实践 

有 些 人 的 整个 职业 生涯 都 在 学 习 、 优 化 和 创造 数据 库 。 我 不 是 这 类 人 ， 这 本 书 也 不 是 那 类 
书 。 但 是 ， 和 计算 机 科学 的 很 多 主题 一 样 ， 有 一 些 技巧 你 其 实 可 以 很 快 地 学 会 ， 它 们 可 以 
让 你 的 数据 库 变 得 更 高 效 ， 让 应 用 的 运行 速度 更 快 。 


首先 ， 给 每 个 数据 表 都 增加 一 个 id 字段 ， 不 会 出 什么 问题 。MySQL 里 所 有 的 表 都 至 少 有 
一 个 主键 〈 就 是 MySQL 用 来 排序 的 字段 )， 因 此 MySQL 知道 怎么 组 织 主键 ， 通 常数 据 库 
很 难 智能 地 选择 主键 。 究 竟 是 用 人 造 的 id 字段 作为 主键 ,还 是 用 那些 具有 了 唯一 性 属性 的 
字段 作为 主键 ， 比 如 username 字段 ， 数 据 科 学 家 和 软件 工程 师 已 经 争论 了 很 多 年 ， 但 我 更 
倾向 于 主动 创建 一 个 id 字段。 这样 做 的 原因 一 两 句 话 难 以 说 请， 不 过 对 于 一 些 非 企业 级 
系统 的 数据 库 ， 你 还 是 应 该 用 自 增 的 id 字段 作为 主键 。 


其 次 ， 用 智能 索引 。 字 典 〈 指 的 是 常用 的 工具 书 ， 不 是 指 Python 的 字典 对 象 ) 是 按照 字母 
顺序 排列 的 单词 表 。 这 样 做 让 你 在 任何 时 候 都 能 快速 地 找到 一 个 单词 ， 只 要 你 知道 这 个 单 
词 是 如 何 拼写 的 就 行 。 你 还 可 以 把 字典 想象 成 另 一 种 形式 ， 将 单词 按照 单词 含义 的 字母 顺 
序 进行 排列 。 如 果 你 没 玩 过 一 些 奇 怪 的 游戏 ， 比 如 危险 边缘 (Jeopardy) 智力 游戏 ， 就 不 
能 理解 游戏 的 含义 ， 这 样 的 字典 就 没 法 用 了 。 但 是 在 数据 库 查 询 的 工作 里 ， 这 种 按照 字段 
含义 进行 排序 的 情况 时 有 发 生 。 比 如 ， 你 的 数据 库 里 可 能 有 一 个 字段 经 常 要 查询 : 























































































































am 








>SELECT * FROM dictionary WHERE definition-"A small furry animal that says meow"; 


+------ +------- n + 
| id | word | definition | 
+------ +------- 4 + 
| 200 | cat | A small furry animal that says meow | 
+------ +------- Å + 


1 row in set (0.00 sec) 


你 可 能 非常 想 给 这 个 表 增 加 一 个 额外 的 键 (除了 已 经 存在 的 主键 id 之 外 ) ， 让 查询 变 得 更 
快 。 但 是 ， 增 加 额外 的 索引 需要 占用 更 多 的 空间 ， 而 且 插 入 新 行 的 时 候 也 需要 花费 更 多 的 
时 间 。 为 了 让 事情 简单 点 儿 ， 你 可 以 让 MySQL 只 检索 查询 列 的 一 部 分 字符 。 比 如 下 面 的 
命令 创建 了 一 个 查询 definition 字段 前 16 个 字符 的 智能 索引 : 








CREATE INDEX definition ON dictionary (id, definition(16)); 
这 个 索引 比 全 文 查询 的 速度 要 快 很 多 ， 而 且 不 需要 占用 过 多 的 空间 和 处 理 时 间 。 
最 后 一 点 是 关于 数据 查询 时 间 和 数据 库 空间 的 问题 。 一 个 常见 的 误区 就 是 在 数据 库 中 存储 
大 量 重复 数据 ， 尤 其 是 在 做 大 量 自然 语言 数据 的 网 络 数据 采集 任务 时 。 举 个 例子 ， 假 如 你 


想 统计 网 站 突然 出 现 的 一 些 词组 的 频率 。 这 些 词组 也 许可 以 从 一 个 现成 的 列表 里 获得 ， 也 
许可 以 通过 文本 分 析 算 法 自动 提取 。 最 终 你 可 能 会 把 词组 储存 成 下 表 的 形式 : 











+-------- +-------------- +------ +----- +--------- +---------------- + 
| Field | Type | Null | Key | Default | Extra 
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+-------- +-------------- +------ +----- +--------- +---------------- * 
| id | int(11) | NO | PRI | NULL | auto increment | 
| url | varchar(200) | YES | | NULL | 
| phrase | varchar(200) | YES | | NULL | 
+-------- +-------------- +------ +----- +--------- +---------------- + 

















每 当 你 发 现 一 个 词组 就 在 数据 库 中 增加 一 行 ， 同 时 把 URL 记录 下 来 。 但 是 ， 如 果 把 这 些 
数据 分 成 三 个 表 ， 你 就 可 以 看 到 数据 库 占用 的 空间 会 大 大 降低 : 











>DESCRIBE 1t 


+--------+-------------- +------ +----- +--------- +---------------- * 
| Field 1 Type | Null | Key | Default | Extra 

+-------- +-------------- +------ +----- +--------- +---------------- + 
| id | int(11) | NO | PRI | NULL | auto_increment | 
| phrase | varchar(200) | YES | | NULL | 

+-------- +-------------- +------ +----- +--------- +---------------- 十 


>DESCRIBE urls 


+------- +-------------- +------ +----- +--------- +---------------- + 
| Field I Type | Null | Key ! Default | Extra 
+-------+-------------- +------ +-----+--------- +---------------- 十 
| id 1 int(11) | NO | PRI 1 NULL | auto increment | 
| url | varchar(200) | YES | | NULL | 
+------- +-------------- +------ +----- +--------- +---------------- 十 


+------------- +--------- +------ +-----+---------+---------------- + 
| Field | Type i Null | Key Default i Extra 
+------------- +---------+------ +-----+--------- +---------------- + 
| id | int(11) 1 NO | PRI 1 NULL | auto increment | 
| urtLId | int(11) | YES | | NULL | | 
| phraseId | int(11) | YES | | NULL | 

| occurrences | int(11) | YES | | NULL | 

+------------- +--------- +------ +----- +--------- +---------------- 十 





虽然 表 定 义 的 结构 变 复杂 了 ， 人 ME 
空间 。 另 外 ， 每 个 URL 和 词组 都 只 会 储存 一 
除非 你 安装 了 第 三 方 包 或 保存 详细 的 数据 库 日 志 ， 否 则 你 无 法 掌握 数据 库 里 数据 增加 、 更 


新 或 删除 的 具体 时 间 。 因 此 ， 如 果 需 要 对 数据 可 用 的 空间 、 变 更 的 频率 和 变更 的 重要 性 进 
行 分 析 ， 你 应 该 卷 虑 在 数据 新 增 、 更 新 或 删除 时 加 一 个 时 间 发 。 














5.3.5 “六 度 空 间 游 戏 ” 

在 第 3 章 ， 我 们 介绍 过 “维基 百科 六 度 分 隔 ” 问 题 ， 其 目标 是 通过 一 些 词 条 链接 寻找 两 个 
词 条 间 的 联系 i 只 要 点 击 链接 就 可 以 从 一 个 维基 词 条 到 另 一 个 维基 
Vl). 


H TERA, JE ADU SE Er MER BE SEIN UE (之 前 我 们 已 经 做 过 )， 还 要 把 
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采集 的 信息 以 某 种 形式 存储 起 来 ， 以 便 后 续 进 行 数据 分 析 。 


前 面 介绍 过 的 自 增 的 id 字段 、 时 间 改 以 及 多 份 数据 表 在 这 里 都 要 用 到 。 为 了 确定 最 合理 
的 信息 存储 方式 ， 你 需要 先 想 想 游戏 规则 。 一 个 链接 可 以 轻易 地 把 页 面 A 连接 到 页 面 B。 
同样 也 可 以 轻易 地 把 页 面 B 连接 到 页 面 A， 不 过 这 可 能 是 另 一 条 链接 。 我 们 可 以 这 样 识 
别 一 个 链接 ， 即 “页 面 A 存在 一 个 链接 ， 可 以 连接 到 页 面 B”。 也 就 是 INSERT INTO links 
(fromPageId, toPageId) VALUES (A, B); (其 中 ,“A” 和 “B” 分 别 表 示 页 面 的 ID 号 )。 


















































因此 需要 设计 一 个 带 有 两 张 数据 表 的 数据 库 来 分 别 存储 页 面 和 链接 ， 两 张 表 都 带 有 创建 时 
间 和 独立 的 ID 号， 代码 如 下 所 示 : 
CREATE TABLE ‘wikipedia'. pages ( 
^id? INT NOT NULL AUTO INCREMENT, 
"url VARCHAR(255) NOT NULL, 


'created' TIMESTAMP NOT NULL DEFAULT CURRENT TIMESTAMP , 
PRIMARY KEY (^id )); 


CREATE TABLE "wikipedia . "links' ( 
^id? INT NOT NULL AUTO INCREMENT, 
"fromPageId? INT NULL, 
"toPageId' INT NULL, 
"created! TIMESTAMP NOT NULL DEFAULT CURRENT TIMESTAMP, 
PRIMARY KEY (^id^)); 


DER. XX EURUBU TET ED AEA E, RA CE VL TRU IC ze EL PH LB rn Be 
为 什么 这 么 做 呢 ? 其 实 是 因为 页 面 标题 要 在 你 进入 页 面 后 读 取 内 容 才 能 抓 到 。 那 么 ， 如 果 
我 们 想 创建 一 个 高 效 的 慌 虫 来 填充 这 些 数据 表 ， 那 么 只 存储 页 面 的 链接 就 可 以 保存 词 条 页 
面 了 ， 甚 至 不 需要 访问 词 条 页 对 


当然 并 不 是 所 有 网 站 都 具有 这 个 特点 ， 但 是 维基 百科 的 词 条 链接 和 对 应 的 页 面 标题 是 可 以 
通过 简单 的 操作 进行 转换 的 。 例 如 ， http://en.wikipedia.org/wiki/Monty. Python 的 后 面 就 是 
页 面 标题 “Monty Python”。 
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下 面 的 代码 会 把 “ 贝 肯 数 ”( 一 个 页 面 与 凯 文 ， 贝 肯 词 条 页 面 的 链接 数 ) 不 超过 6 的 维基 
百科 页 面 存储 起 来 : 

















from bs4 import BeautifulSoup 
import re 
import pymysql 


conn = pymysql.connect(host-'127.0.0.1', unix socket-'/tmp/mysql.sock',user- 
'root', passwd-zNone, db-'mysql', charset-'utf8') 

cur = conn.cursor() 

cur.execute("USE wikipedia") 


def insertPageIfNotExists(url): 
cur.execute("SELECT * FROM pages WHERE url = Xs", (url)) 
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if cur.rowcount -- 0: 


cur.execute("INSERT INTO pages (url) VALUES (%s)", (url)) 


conn.commit() 

return cur.lastrowid 
else: 

return cur.fetchone()[0] 


def insertLink(fromPageId, toPageId): 


cur.execute("SELECT * FROM links WHERE fromPageId = %s AND toPageId = %s", 
(int(fromPageId), int(toPageId))) 


if cur.rowcount -- 0: 


cur.execute("INSERT INTO links (fromPageId, toPageId) VALUES (Xs, *s)", 
(int(fromPageId), int(toPageId))) 


conn.commit() 


pages - set() 
def getLinks(pageUrl, recursionLevel): 
global pages 
if recursionLevel > 4: 
return; 
pageld - insertPageIfNotExists(pageUrl) 


html = urlopen("http://en.wikipedia.org'"-«pageUrl) 


bsObj = BeautifulSoup(html) 
for link in bsObj.findAll("a", 


hrefzre.compile("^(/wiki/)((?!:).)*$")): 


insertLink(pageId, 


insertPageIfNotExists(link.attrs['href'])) 


if link.attrs['href'] not in pages: 


# 遇 到 一 个 新 页 面 ,加 入 集合 并 搜索 里 面 的 词 条 链接 


newPage = link.attrs['href'] 
pages .add(newPage) 
getLinks(newPage, recursionLevel-«1) 
getLinks("/wiki/Kevin Bacon", 0) 
cur.close() 
conn.close() 





用 递归 实现 那些 需要 运行 很 长 时 间 的 代码 ， 通 常 是 一 件 复杂 的 事情 。 在 本 例 中 ， 变 量 





recursionLevel 被 传递 到 getLinks 函数 里 ， 用 来 跟踪 函数 递归 的 次 数 (每 完成 一 次 递归 ， 











recursionLevel 就 加 1)。 当 recursionLevel 值 到 5 的 时 候 ， 函 数 会 自动 返回 ， 不 会 继续 递 














归 。 这 个 限制 可 以 防止 数据 太 大 导致 内 存 堆 栈 溢出 。 


需要 注意 的 是 ， 这 个 程序 可 能 要 运行 好 几 天 才 会 结束 。 




















虽然 我 自己 运行 过 它 ， 但 是 我 的 数 
据 库 里 只 保持 了 一 点 点 贝 骨 数 不 超 过 6 的 词 条 ， 因 为 维基 百科 服务 器 会 拒绝 程序 的 请 求 。 











但 是 ， 这 些 数据 对 后 面 分 析 维 基 百 科 词 条 的 链接 路 径 问题 已 经 足够 了 。 


关于 这 个 问题 的 补充 和 最 终 答案 ， 将 在 第 8 章 关 于 有 向 


5.4 Email 





图 的 问题 





介绍。 


与 网 页 通过 HTTP 协议 传输 一 样 ， 邮 件 是 通过 SMTP (Simple Mail Transfer Protocol， 简 
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单 邮 件 传 输 协 议 ) 传输 的 。 而 且 ， 和 你 用 网 络 服务 器 的 客户 端 (浏览 器 ) 处 理 那 些 通过 
HTTP 协议 传输 的 网 页 一 样 ，Email 服务 器 也 有 客户 端 ， 像 Sendmail, Postfix 和 Mailman 
等 ， 都 可 以 收发 邮件 。 














虽然 用 Python 发 邮件 很 容易 ， 但 是 需要 你 连接 那些 正在 运行 SMTP 协议 的 服务 器 。 在 服 
务 器 或 本 地 机 器 上 设置 SMTP 客户 端 有 点 儿 复 杂 ， 也 超出 了 本 书 的 介绍 范围 ， 但 是 有 很 多 
资料 可 以 帮 你 解决 问题 ， 如 果 你 用 的 是 Linux 或 Mac OS X 系统 ， 参 考 资料 会 更 丰富 。 


























下 面 的 代码 运行 的 前 提 是 你 的 电脑 已 经 可 以 正常 地 运行 一 个 SMTP 客户 端 。( 如 果 要 调整 
代码 用 于 远程 SMTP 客户 端 ， 请 把 localhost 改 成 远程 服务 器 地 址 。) 
用 Python 发 一 封 邮件 只 要 9 行 代码 ; 


import smtpLib 
from email.mime.text import MIMEText 


msg - MIMEText("The body of the email is here") 
msg['Subject'] = "An Email Alert" 

msg['From'] = "ryanQpythonscraping.com" 
msg['To'] = "webmaster(pythonscraping.com" 

S = smtplib.SMTP('localhost') 


s.send message(msg) 
s.quit() 


Python 有 两 个 包 可 以 发 送 邮件 : smtplib 和 email, 





Python 的 email 模块 里 包含 了 许多 实用 的 邮件 格式 设置 函数 ， 可 以 用 来 创建 邮件 “ 包 
衷 ”。 下 面 的 示例 中 使 用 的 MIMEText 对 象 ， 为 底层 的 MIME (Multipurpose Internet Mail 
Extensions， 多 用 途 互 联网 邮件 扩展 类 型 ) 协议 传输 创建 了 一 封 空 邮件 ， 最 后 通过 高 层 的 
SMTP 协议 发 送出 去 。MIMEText 对 象 msg 包括 收发 邮箱 地 址 、 邮 件 正文 和 主题 ，Python 通 
过 它 就 可 以 创建 一 封 格式 正确 的 邮件 。 


smtplib 模块 用 来 设置 服务 器 连接 的 相关 信息 。 就 像 MySQL 服务 器 的 连接 一 样 ， 这 个 连接 
必须 在 用 完 之 后 及 时 关闭 ， 以 避免 同时 创建 太 多 连接 而 浪费 资源 。 


把 这 个 简单 的 邮件 程序 封装 成 函数 后 ， 可 以 更 方便 地 扩展 和 使 用 : 



































import smtplib 

from email.mime.text import MIMEText 
from bs4 import BeautifulSoup 

from urllib.request import urlopen 
import time 


def sendMail(subject, body): 
msg = MIMEText(body) 





78 | 第 5 章 


msg['Subject'] = subject 
msg['From'] = "christmas alertsQpythonscraping.com" 
msg['To'] = "ryanGpythonscraping.com" 


S = smtplib.SMTP('localhost') 


s.send message(msg) 
s.quit() 


bsObj = BeautifulSoup(urlopen("https://isitchristmas.com/")) 
while(bsObj.find("a", ("id":"answer"J).attrs['title'] == "NO"): 
print("It is not Christmas yet.") 


time.sleep(3600) 


bsObj = BeautifulSoup(urlopen("https://isitchristmas.com/")) 
sendMail("It's Christmas!", 
"According to http://itischristmas.com, it is Christmas!") 


这 个 程序 每 小 时 检查 一 次 https://isitchristmas.com/ 网 站 (根据 日 期 判断 当天 是 不 是 圣诞 
节 )。 如 果 页 面 上 的 信息 不 是 “NO” (中 国 用 户 在 网 站 页 面 上 看 到 的 “NO” 在 源 代 码 里 是 
<noscript> 不 是 </noscript>) ， 就 会 给 你 发 一 封 邮 件 ， 告 诉 你 圣诞 节 到 了 。 

















虽然 这 个 程序 看 起 来 并 没有 墙 上 的 挂历 有 用 ， 但 是 稍 作 修 改 就 可 以 做 很 多 有 用 的 事情 。 它 
可 以 发 送 网 站 访问 失败 、 应 用 测试 失败 的 异常 情况 ， 也 可 以 在 Amazon 网 站 上 出 现 了 一 款 





卖 到 断 货 的 畅销 品 时 通知 你 











这 些 都 是 挂历 做 不 到 的 事情 。 
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第 6 和 章 


读 取 文档 





有 种 观点 认为 ， 互 联网 基本 上 就 是 那些 符合 新 式 Web 2.0 潮流 ， 并 且 经 过 多 媒体 内 容 点 组 
的 HTML 网 站 构成 的 集合 ， 这 些 内 容 在 网 络 数 据 采 集 时 儿 乎 都 是 要 被 忽略 的 。 但 是 ， 这 种 
观点 忽略 了 互联 网 最 基本 的 特征 : 作为 不 同类 型 文件 的 传输 媒介 。 








虽然 互联 网 在 20 世纪 60 年 代 末期 就 已 经 以 不 同 的 形式 出 现 ， 但 是 HTML 直到 1992 年 才 
问世 。 在 此 之 前 ， 互 联网 基本 上 就 是 收发 邮件 和 传输 文件 ; 今天 看 到 的 网 页 的 概念 那 时 还 
没有 。 总 之 ， 互 联网 并 不 是 一 个 HIML 页 面 的 集合 。 它 是 一 个 信息 集合 ， 而 HTML 文件 
只 是 展示 信息 的 一 个 框架 而 已 。 如 有 果 我 们 的 仆 虫 不 能 读 取 其 他 类 型 的 文件 ， 包 括 纯 文本 、 
PDF、 图 像 、 视 频 、 邮 件 等 ， 我 们 将 会 失去 很 大 一 部 分 数据 。 


本 瘟 重 点 介绍 文档 处 理 的 相关 内 容 ， 包 括 把 文件 下 载 到 文件 夹 里， 以 及 读 取 文 档 并 提取 数 
据 。 我 们 还 会 介绍 文档 的 不 同 编码 类 型 ， 让 程序 可 以 读 取 非 英文 的 HIML 页 面 。 


6.1 文档 编码 


文档 编码 是 一 种 告诉 程序 一 一 无 论 是 计算 机 的 操作 系统 还 是 Python 代码 一 一 读 取 文档 的 规 
则 。 文 档 编码 的 方式 通常 可 以 根据 文件 的 扩展 名 进行 判断 ， 虽 然 文件 扩展 名 并 不 是 由 编码 
确定 的 ， 而 是 由 开发 者 确定 的 。 例 如 ， 如 果 我 把 myImage.jpg 另存 为 myImage.txt， 不 会 出 
现任 何 问题 ， 但 当 我 用 文本 编辑 器 打开 它 的 时 候 就 有 问题 了 。 好 在 这 种 情况 很 少见 ， 如 果 
要 正确 地 读 取 一 个 文档 ， 必 须要 知道 它 的 扩展 名 。 


















































从 最 底层 的 角度 看 ， 所 有 文档 都 是 由 0 和 1 编码 而 成 的 。 而 在 高 层 (贴近 用 户 的 层级 
) 


Ja 
编码 算法 会 定义 “每 个 字符 多 少 位 ”或 “每 个 像素 的 颜色 值 用 多 少 位 ”( 图 像 文件 里 ) 之 
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类 的 事情 ， 在 那里 你 会 遇 到 一 些 数据 压缩 算法 或 体积 缩减 算法 ， 比 如 PNG 图 像 编码 格式 
(一 种 无 损 压 缩 的 位 图 图 形 格 式 )。 

















虽然 第 一 次 处 理 这 些 非 HTML 格式 的 文件 时 会 觉得 很 没 底 ， 但 是 只 要 安装 了 合适 的 库 ， 
Python 就 可 以 帮 你 处 理 任 意 类 型 的 文档 。 纯 文本 文件 、 视 频 文件 和 图 像 文件 的 唯一 区 别 ， 
就 是 它们 的 0 和 1 面向 用 户 的 转换 方式 不 同 。 在 本 章 后 面 的 内 容 里 ， 我 会 介绍 几 种 常用 的 
文档 格式 : 纯 文本 、PDF、PNG 和 GIF。 


6.2 AXE 


虽然 把 文件 存储 为 在 线 的 纯 文 本 格式 并 不 常见 ， 但 是 一 些 简 易 网 站 ， 或 者 拥有 大 量 纯 文 本 
文件 的 “旧式 学 术 ”(old-school) 网 站 经 常会 这 么 做 。 例 如 ， 互 联网 工程 任务 组 (Internet 
Engineering Task Force， IETF) 网 站 就 存储 了 IETF 发 表 过 的 所 有 文档 ， 包 含 HTML, PDF 
和 纯 文 本 格式 (例如 https:/www.ietf.org/rfc/rfc1149.txt)。 大 多 数 浏览 器 都 可 以 很 好 地 显示 
纯 文 本 文件 ， 采 集 它们 也 不 会 遇 到 什么 问题 。 
























































对 大 多 数 简 单 的 纯 文本 文件 ， 像 http://www.pythonscraping.com/pages/warandpeace/chapterl. 
txt 这 个 练习 文件 ， 你 可 以 用 下 面 的 方法 读 取 : 





from urllib.request import urlopen 
textPage = urlopen( 

"http: //www.pythonscraping.com/pages/warandpeace/chapter1.txt") 
print(textPage.read()) 


通常 ， 当 用 urlopen 获取 了 网 页 之 后 ， 我 们 会 把 它 转变 成 BeautifulSoup 对 象 ， 方 便 后 面 
对 HTML 进行 分 析 。 在 这 段 代 码 中 ， 我 们 直接 读 取 页 面 内 容 。 你 可 能 觉得 ， 如 果 把 它 转 变 
成 BeautifulSoup 对 象 应 该 也 不 错 ， 但 那样 做 其 实 适得其反 一 一 这 个 页 面 不 是 HIML， 所 以 
BeautifulSoup 库 就 没 用 了 。 一 旦 纯 文 本 文件 被 读 成 字符 串 ， 你 就 只 能 用 普通 Python 字符 串 
的 方法 分 析 它 了 。 当 然 ， 这 么 做 有 个 缺点 ， 就 是 你 不 能 对 字符 串 使 用 HTML 标签 ， 去 定位 
那些 你 真正 需要 的 文字 ， 避 开 那 些 你 不 需要 的 文字 。 如 果 现 在 你 想 从 纯 文 本 文件 中 抽取 某 
些 信 息 ， 还 是 有 些 难 度 的 。 


文本 编码 和 全 球 互联 网 
记得 前 面 我 说 过 ， 如 果 你 想 正确 地 读 取 一 个 文件 ， 知 道 它 的 扩展 名 就 可 以 了 。 不 过 非常 奇 
怪 的 是 ， 这 条 规则 不 能 应 用 到 最 基本 的 文档 格式 ，.txt 文件 。 
































大 多 数 时候 用 前 面 的 方法 读 取 纯 文本 文件 都 设 问 题 。 但 是 ， 互 联网 上 的 文本 文件 会 比较 复 
杂 。 下 面 介 绍 一 些 英 文 和 非 英 文 编码 的 基础 知识 ， 包 括 ASCII, Unicode 和 ISO 编码 ， 以 
及 对 应 的 处 理 方法 。 
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1. 编码 类 型 简介 

20 世纪 90 年 代 初 ， 一 个 叫 Unicode 联盟 (The Unicode Consortium) 的 非 营 利 组 织 尝 
试 将 地 球 上 所 有 用 于 书写 的 符号 进行 统一 编码 。 其 目标 包括 拉丁 字母 、 斯 拉夫 字母 
(KHDHIIHHa)、 中 国 象形 文字 (象形 )、 数 学 和 逻辑 符号 (X, = )， 其 至 表情 和 
“杂项 ”(miscellaneous) 符号 ， 如 生化 危机 标记 CS) 和 和 平 符号 (0) 等 。 




















编码 的 结果 就 是 你 熟知 的 UTF-8， 全 称 是 “Universal Character Set - Transformation Format 
8 bit”， 即 “统一 字符 集 一 转换 格式 8 位 ”。 一 个 常见 的 误解 是 UTF-8 把 所 有 字符 都 存储 成 
8 位。 其实 “8 位 ”只 是 显示 一 个 字符 需要 的 最 小 位 数 ， 而 不 是 最 大 位 数 。( 如 果 UTF-8 的 
每 个 字符 都 是 8 位 ， 那 一 共 也 只 能 存储 2* 个 ， 即 256 个 字符 。 这 对 中 文字 符 和 其 他 符号 来 
说 显然 不 够 。) 




















真实 情况 是 ，UTF-8 的 每 个 字符 开头 有 一 个 标记 表示 “这 个 字符 只 用 一 个 字 节 ”或 “那个 
字符 需要 用 两 个 字 节 ”， 一 个 字符 最 多 可 以 是 四 个 字 节 。 由 于 这 四 个 字 节 里 还 包含 一 部 分 
设置 信息 ， 用 来 决定 多 少 字 节 用 做 字符 编码 ， 所 以 全 部 的 32 位 (32 位 =4 字 节 x8 位 / 字 
节 ) 并 不 会 都 用 ， 其 实 最 多 使 用 21 位 ， 也 就 是 总 共 2 097 152 种 可 能 里 面 可 以 有 1 114 112 
个 字符 。 


虽然 对 很 多 程序 来 说 ，Unicode 都 是 上 帝 的 礼物 (godsend) ， 但 是 有 些 习 惯 很 难 改变 ， 
ASCII 依然 是 许多 英文 用 户 的 不 二 选择 。 























ASCII 是 20 世纪 60 年 代 开 始 使 用 的 文字 编码 标准 ， 每 个 字符 7 位 ， 一共 2 ， 即 128 个 字 
符 。 这 对 于 拉丁 字母 (包括 大 小 写 )、 标 点 符号 和 英文 键盘 上 的 所 有 符号 ， 都 是 够 用 的 。 


在 20 世纪 60 年代， 存储 的 文件 用 7 位 编码 和 用 8 位 编码 之 间 的 差异 是 巨大 的 ， 因 为 内 存 
非常 昂贵 。 当 时 ， 计 算 机 科学 家 们 为 了 是 需要 增加 一 位 来 获得 一 个 漂亮 的 二 进 制 数 (用 8 
位 ) ， 还 是 让 文件 用 更 少 的 位 数 (用 7 位 ) 费 尽心 机 。 最 终 ，7 位 编码 胜利 了 。 但 是 ， 在 新 
式 的 计算 方式 中 , 每 个 7 位 码 的 前 面 都 补充 (pad) 了 一 个 “0”', 留 给 我 们 两 个 最 坏 的 结果 
是 , 文件 大 了 14% (编码 由 7 位 变 成 8 位， 体积 增加 了 14%)， 并 且 由 于 只 有 128 个 字符 ， 
缺乏 灵活 性 。 















































在 UTF-8 设计 过 程 中 ， 设 计 师 决定 利用 ASCII 文档 里 的 “填充 位 ”， 让 所 有 以 “0” 开 头 的 
字 节 表示 这 个 字符 只 用 1 个 字 节 ， 从 而 把 ASCH 和 UTF-8 编码 完美 地 结合 在 一 起 。 因 此 ， 























下 面 的 字符 在 ASCI 和 UTF-8 两 种 编码 方式 中 都 是 有 效 的 : 
01000001 - A 
01000010 - B 
01000011 - C 











注 1: padding (填充 ) 位 在 稍 后 介绍 的 ISO 编码 标准 里 还 会 介绍 。 
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而 下 面 的 字符 只 在 UTF-8 编码 里 有 效 ， 如 果 文 档 用 ASCH 编码 ， 那 么 就 会 被 看 成 是 “无 法 
打印 ”: 














11000011 10000000 - À 
11000011 10011111 - 
11000011 10100111 - c 


v 











除了 UTF-8， 还 有 其 他 UTF 标准 ， 像 UTF-16、UTE-24、UTF-32， 不 过 很 少 用 这 些 编码 标 
准 对 文件 进行 编码 ， 只 在 一 些 超出 本 书 介绍 范围 的 环境 里 使 用 。 


显然 ，Unicode 标准 也 有 问题 ， 就 是 任何 一 种 非 英 文 语言 文档 的 体积 都 比 ASCH 编码 的 体 
积 大 。 虽 然 你 的 语言 可 能 只 需要 用 大 约 100 个 字符 ， 像 英文 的 ASCI 编码 ，8 位 就 够 了 ， 
但 是 因为 是 用 UTF-8 编码 ， 所 以 你 还 是 得 用 至 少 16 位 表示 每 个 字符 。 这 会 让 非 英文 的 纯 
文本 文档 体积 差不多 达到 英文 文档 的 两 信 ， 对 那些 不 用 拉丁 字符 集 的 语言 来 说 都 是 如 此 。 


ISO 标准 解决 这 个 问题 的 办 法 是 为 每 种 语言 创建 一 种 编码 。 和 Unicode 不 同 ， 它 使 用 了 与 
ASCI 相同 的 编码 ， 但 是 在 每 个 字符 的 开头 用 0 作 “ 填 充 位 ”， 这 样 就 可 以 让 语言 在 需要 
的 时 候 创建 特殊 字符 。 这 种 做 法 对 欧洲 那些 依赖 拉丁 文字 母 的 语言 (编码 还 是 按照 0-127 
一 一 对 应 ) 非常 合适 ， 只 不 过 需要 增加 一 些 特殊 字符 。 这 使 得 ISO-8859-1 (为 拉丁 文字 母 
设计 的 ) 标准 里 有 了 分 数 符号 (如 弘 ) 和 版 权 标 记 符号 (©). 
























































还 有 一 些 ISO 字符 集 ， 像 IO-8859-9 (土耳其 语 )、ISO-8859-2 (德语 等 语言 )、ISO-8859- 
15 (法 语 等 语言 ) 也 是 用 类 似 的 规律 做 出 来 的 。 

虽然 这 些 年 ISO 编码 标准 的 使 用 率 一 直 在 下 降 ， 但 是 目前 仍 有 约 9% 的 网 站 使 用 ISO 编 
码 ?， 所 以 有 必要 做 基本 的 了 解 ， 并 在 采集 网 站 之 前 需要 检查 是 否 使 用 了 这 种 编码 方法 。 


2. 编码 进行 时 

在 上 一 节 里 ， 我 们 用 默认 设置 的 urlopen 读 取 了 网 上 的 .txt 文档 。 这 么 做 对 英文 文档 没有 
任何 问题 。 但 是 ， 如 果 你 遇 到 的 是 俄语 、 阿 拉 伯 语文 档 ， 或 者 文档 里 有 一 个 像 “résumé” 
这 样 的 单词 ， 就 可 能 出 问题 。 


看 看 下 面 的 代码 : 












































from urllib.request import urlopen 
textPage = urlopen( 

"http: //www.pythonscraping.com/pages/warandpeace/chapteri-ru.txt") 
print(textPage.read()) 


这 段 代 码 会 把 《战争 与 和 平 》 原 著 〈 托 尔 斯 泰 用 俄语 和 法 语 写 的 ) 的 第 1 章 打印 到 屏幕 
上 。 打 印 结 果 一 开头 是 这 样 ， 

















注 2: 数据 源 自 http;//w3techs.com/technologies/history. overview/character encoding, Mit W ERME, 
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b" \xd0\xa7\xd0\x90\xd0\xa1\xd0\xa2\xd0\xac \xd0\x9f\xd0\x95\xd0\xa0\xd0\x92\xd0\ 
x90\xd0\xaf\n\nI\n\n\xe2\x80\x94 Eh bien, mon prince. 





另外 ， 在 大 多 数 浏览 器 里 访问 页 面 也 会 呈现 乱码 (如 图 6-1). 

















€ > Q fi |) www.pythonscraping.com/pages/warandpeace/chapterl-... Ye m € 三 





DSDDID6D^ DYD*D D'DD^ 
I 


â€" Eh bien, mon prince. GAanes et Lucques ne sont plus que des apanages, des 

DZDXDkDuNN NGN, de la famille Buonaparte. Non, je vous prAC€viens que si vous ne me dites 
pas que nous avons la guerre, si vous vous permettez encore de pallier toutes les 
infamies, toutes les atrocitÀOs de cet Antichrist (ma parole, j'y crois) â€” je ne vous 
connais plus, vous n'Aates plus mon ami, vous n'À8tes plus DkDXD! D2DuNEDYN .D1 N€D?Dt, 
comme vous dites. DNf, D-D'N€D^D2NN D2NfD!N Du, D-D'N€D?D?NN D?NfD!N Du. Je vois que je 
vous fais peur, NDp°D“’D,N DuNNG Ð, N€b*NNDOoD?D-N:D?D?D!N Bu. 

DC€D?DO D3DXD?DXN€D,D»D? D? D,NZD»Du 1805 D3DXD^D? D,D-D?DuNN DhD?N DDkDkD? DYD"D2D»DXD?DhD^ 
D'DpN€buNe, Ñ .N€DuDiD»D,DkD? D, DZN€D,DiD»D,D*DuDkDAD?N D,DkDZDuN€D?N N€D,NtN: DoD"N€D,D, D 
HDuDXD DXN€DXD2DAN., D2NN N€DuN:D"N D2D?D4DhDkD3DX D, NiD,DXDXD2DLDXD3DX DODLND-N D'D 
*ND.D»D,N, DZDuN€D2DXD3DX D£N€D.DLN.D?D2?N^DLD3Dk DAD? DpDu D2DuNtDuN€. DDADhD? DYD 














6-1: 法 语 和 斯 拉夫 语 用 浏览 器 常用 的 文本 编码 格式 180-8859-1 编码 的 效果 





就 算 让 懂 俄 语 的 人 来 看 ， 这 些 乱码 也 难以 辨认 。 这 个 问题 是 因为 Python 默认 把 文本 读 成 
ASCI 编码 格式 ， 而 浏览 器 把 文本 读 成 ISO-8859-1 编码 格式 。 其 实 都 不 对 ， 应 该 用 UTF-8 





编码 格式 。 
我 们 可 以 把 字符 串 显 示 转 换 成 UTF-8 格式 ， 这 样 就 可 以 正确 显示 斯 拉夫 文字 了 : 
from UrLLib.request import UrLopen 


textPage = urlopen( 
"http: //www.pythonscraping.com/pages/warandpeace/chapter1-ru.txt") 
print(str(textPage.read(), 'utf-8')) 


用 BeautifulSoup fI Python 3.x 对 文档 进行 UTF-8 编码 ， 如 下 所 示 : 





html = urlopen("http://en.wikipedia.org/wiki/Python (programming language)") 
bsObj = BeautifulSoup(html) 

content = bsObj.find("div", ["id":"mw-content-text"]).get text() 

content - bytes(content, "UTF-8") 

content = content.decode("UTF-8") 


Vr eT REIT TELE HI P028 I rh BIST oe a DE] UTF-8 编码 读 取 内 容 ， 毕 况 UTF-8 也 可 以 完 




















美 地 处 理 ASCI 编码 。 但 是 ， 要 记 住 还 有 9% 的 网 站 使 用 ISO 编码 格式 。 所 以 在 处 理 纯 文 
本 文档 时 ， 想 用 一 种 编码 搞定 所 有 的 文档 依旧 不 可 能 。 有 一 些 库 可 以 检查 文档 的 编码 ， 或 











是 对 文档 编码 进行 估计 (用 一 些 逻 辑 判 断 “N € D*NNp°*D°PD.N” 不 是 单词 )， 不 过 效果 六 





不 是 很 好 。 


























处 理 HTML 页 面 的 时 候 ， 网 站 其 实 会 在 «head» 部 分 显示 页 面 使 用 的 编码 格式 。 大 多 数 网 
站 ， 尤 其 是 英文 网 站 ， 都 会 带 这 样 的 标签 ; 






































«meta charset-"utf-8" /» 


ifj ECMA (European Computer Manufacturers Association， 欧 洲 计算 机 制造 商 协 会 ，http:// 
www.ecma-international.org/) 网 站 的 标签 是 这 样 S 


«META HTTP-EQUIV-"Content-Type" CONTENT-"text/html; charset-iso-8859-1"» 











如 果 你 要 做 很 多 网 络 数据 采集 工作 ， 尤 其 是 面 对 国 际 网 站 时 ， 建 议 你 先 看 看 neta 标签 的 内 
容 ， 用 网 站 推荐 的 编码 方式 读 取 页 面 内 容 。 




















6.3 CSV 


进行 网 页 采集 的 时 候 ， 你 可 能 会 遇 到 CSV 文件 ， 也 可 能 有 同事 希望 将 数据 保存 为 CSV 
格式 。Python 有 一 个 超 赞 的 标准 库 (https://docs.python.org/3.A/library/csv.html) 可 以 读 写 
CSV 文件 。 虽 然 这 个 库 可 以 处 理 各 种 CSV 文件 ， 但 是 这 里 我 重点 介绍 标准 CSV 格式 。 如 
果 你 在 处 理 CSV 时 有 特殊 需求 ， 请 查看 文档 | 





























读 取 CSV 文 件 
Python 的 csv 库 主要 是 面向 本 地 文件 ， 就 是 说 你 的 CSV. 文件 得 存储 在 你 的 电脑 上 。 而 进 
行 网 络 数据 采集 的 时 候 ， 很 多 文件 都 是 在 线 的 。 不 过 有 一 些 方 法 可 以 解决 这 个 问题 : 























。 手动 把 CSV 文件 下 载 到 本 机 ， 然 后 用 Python 定位 文件 位 置 ， 
* "S Python 程序 下 载 文 件 ， 读 取 之 后 再 把 源 文件 删除 ， 
。 从 网 上 直接 把 文件 读 成 一 个 字符 串 ， 然 后 转换 成 一 个 StringI0 对 象 ， 使 它 具 有 文件 的 


























虽然 前 两 个 方法 也 可 以 用 ,但 是 既然 你 可 以 轻易 地 把 CSYV 文件 保存 在 内 存 里 ， 就 不 要 
再 下 载 到 本 地 占 硬盘 空间 了 。 直 接 把 文件 读 成 字符 串 ， 然 后 封装 成 StringI0 对 象 ， 让 
Python 把 它 当 作文 件 来 处 理 ， 就 不 需要 先 保 存 成 文件 了 。 下 面 的 程序 就 是 从 网 上 获取 一 个 
CSV 文件 (这 里 用 的 是 http://pythonscraping.com/files/MontyPythonAlbums.csv 里 的 Monty 
Python 乐团 的 专辑 列表 ) ， 然 后 把 每 一 行 都 打印 到 命令 行 里 ; 









































from urllib.request import urlopen 
from io import StringIO 
import csv 























iE 3: ECMA 是 ISO 编码 标准 的 主要 贡献 者 之 一 ， 所 以 它 的 网 站 用 ISO 编码 一 点 儿 也 不 奇怪 。 
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data = urlopen("http://pythonscraping.com/files/MontyPythonAlbums.csv") 
.read().decode('ascii', 'ignore') 

dataFile - StringIO(data) 

csvReader - csv.reader(dataFile) 


for row in csvReader: 
print(row) 








Jt 
E 


显示 结果 很 长 ， 开 始 部 分 是 这 样 : 








['Name', 'Year'] 

["Monty Python's Flying Circus", '1970'] 
['Another Monty Python Record', '1971'] 
["Monty Python's Previous Record", '1972'] 


从 代码 中 你 会 发 现 csv. reader 返回 的 csvReader 对 象 是 可 迭代 的 ， 而 且 由 Python 的 列表 对 
象 构 成 。 因 此 ，csvReader 对 象 可 以 用 下 面 的 方式 接 入 : 








for row in csvReader: 
print("The album \""+row[0]+"\" was released in "«str(row[1])) 





输出 结果 是 : 


The album "Name" was released in Year 

The album "Monty Python's Flying Circus" was released in 1970 
The album "Another Monty Python Record" was released in 1971 
The album "Monty Python's Previous Record" was released in 1972 


注意 看 第 一 行 的 内 容 ，The album "Name" was released in Year。 虽 然 写 示例 代码 的 时 候 ， 
这 行内 容 是 否 显示 都 无 所 谓 ， 但 是 工作 中 你 肯定 不 希望 将 这 行 信息 保留 在 数据 里 。 有 些 程 
序 员 可 能 会 简单 地 跳 过 csvReader 对 象 的 第 一 行 ， 或 者 写 一 个 简单 的 条 件 把 第 一 行 处 理 掉 。 
不 过 ， 还 有 一 个 函数 可 以 很 好 地 处 理 这 个 问题 ， 那 就 是 csv.DictReader: 
































from urllib.request import urlopen 
from io import StringIO 
import csv 


data - urlopen("http://pythonscraping.com/files/MontyPythonAlbums.csv") 
.read().decode('ascii', 'ignore') 

dataFile - StringIO(data) 

dictReader = csv.DictReader(dataFile) 


print(dictReader.fieldnames) 


for row in dictReader: 
print(row) 














csv.DictReader 会 返回 把 CSV 文件 每 一 行 转换 成 Python 的 字典 对 象 返回 ， 而 不 是 列表 对 
象 ， 并 把 字段 列表 保存 在 变量 dictReader.fieldnames 里 ， 字 段 列表 同时 作为 字典 对 象 的 键 ; 








['Name', 'Year'] 

('Name': "Monty Python's Flying Circus", 'Year': '1970') 
('Name': 'Another Monty Python Record', 'Year': '1971'j 
('Name': "Monty Python's Previous Record", 'Year': '1972') 


虽然 用 DictReaders 创建 、 处 理 和 打印 CSV 信息 ， 比 csvReaders 要 多 写 一 点 儿 代码 ， 但 是 
考虑 到 它 的 便利 性 和 实用 性 ， 多 写 那 点 儿 代 码 还 是 值得 的 。 


6.4 PDF 


做 为 一 名 Linux 用 户 ， 我 能 理解 电脑 上 没有 微软 软件 却 收 到 了 一 个 docx 文件 的 痛苦 ， 还 
有 就 是 费 半天 劲 儿 找 一 种 能 够 读 取 苹果 系统 媒体 文件 的 解码 器 。 从 某 种 意义 上 说 ，Adobe 
在 1993 年 发 明 PDF 格式 (Portable Document Format， 便 携 式 文档 格式 ) 是 一 种 技术 革命 。 
PDF 可 以 让 用 户 在 不 同 的 系统 上 用 同样 的 方式 查看 图 片 和 文本 文档 ， 无 论 这 些 文件 是 在 哪 
种 系统 上 制作 的 。 


虽然 把 PDF 显示 在 网 页 上 已 经 有 点 儿 过 时 了 (你 已 经 可 以 把 内 容 显 示 成 HTML 了 ， 为 什 
么 还 要 用 这 种 静态 、 加 载 速 度 超 慢 的 格式 呢 ?”)， 但 是 PDF 仍然 无 处 不 在 ， 尤 其 是 在 处 理 
商务 报表 和 表单 的 时 候 。 


















































2009 年 ， 一 个 叫 Nick Innes 的 英国 人 上 了 新 闻 ， 他 根据 英 联 邦 的 信息 自由 法 案 ， 要 求 英国 
白金 汉 郡 议会 公开 学 生 的 考试 成 绩 。 在 几 次 请 求 遭 到 拒绝 之 后 ， 他 开始 自己 收集 信息 一 一 
最 后 收集 了 184 fj PDF 文件 。 









































虽然 Innes 努力 坚持 ， 并 且 最 后 得 到 了 一 个 格式 更 好 的 数据 库 ， 但 是 如 果 他 事先 了 解 网 络 
EE, HH Python 众多 PDF 解析 模块 中 的 任意 一 个 来 处 理 这 些 PDF 文件 ， 那 么 他 一 定 可 
以 在 法 庭 上 节省 很 多 时 间 。 














不 过 目前 很 多 PDF 解析 库 都 是 用 Python 2.x 版 本 建立 的 ， 还 没有 迁移 到 Python 3.x 版 本 。 
但 是 ， 因 为 PDF 比较 简单 ， 而 且 是 开源 的 文档 格式 ， 所 以 有 一 些 给 力 的 Python 库 可 以 读 
取 PDF 文件 ， 而 且 支 持 Python 3.x 版 本 。 








PDFMiner3K 就 是 一 个 非常 好 用 的 库 (是 PDFMiner 的 Python 3.x 移植 版 )。 它 非常 灵活 ， 
可 以 通过 命令 行使 用 ， 也 可 以 整合 到 代码 中 。 它 还 可 以 处 理 不 同 的 语言 编码 ， 而 且 对 网 络 
文件 的 处 理 也 非常 方便 。 



































你 可 以 下 载 这 个 模块 的 源 文 件 (https://pypi.python.org/pypi/pdfminer3k)， 解 压 并 用 下 面 命 
Aud 
令 安 装 : 














$python setup.py install 


文档 位 于 源 文件 解压 文件 夹 的 Ipdfminer3k-1.3.0/docs/index.html 里 ， 这 个 文档 更 多 是 在 介 
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绍 命令 行 








下 面 的 例 








from 
from 
from 
from 
from 
from 


def 


pdfFile = urlopen("http://pythonscraping.com/pages/warandpeace/chapter1.pdf") 


outp 
prin 
pdfF 


readPDF 函数 最 大 的 好 处 是 ， 如 果 你 的 PDF 文件 在 电脑 里 ， 你 就 可 以 直接 把 urlopen 返回 


接口 ， 而 不 是 Python 代码 整合 。 





子 可 以 把 任意 PDF 读 成 字符 串 ， 然 后 用 StringI0 转换 成 文件 对 象 ; 





urllib.request import urlopen 

pdfminer.pdfinterp import PDFResourceManager, process, pdf 
pdfminer.converter import TextConverter 

pdfminer.layout import LAParams 

io import StringIO 

io import open 


readPDF(pdfFile): 

rsrcmgr = PDFResourceManager() 

retstr = StringI0() 

Laparams = LAParams() 

device = TextConverter(rsrcmgr, retstr, laparams-laparams) 


process pdf(rsrcmgr, device, pdfFile) 
device.close() 


content = retstr.getvalue() 
retstr.close() 
return content 


utString - readPDF(pdfFile) 
t(outputString) 
ile.close() 


的 对 象 pdfFile ERf& X OI IJ open() 文件 对 象 : 


pdfFile = open("../pages/warandpeace/chapteri.pdf", 'rb') 


输出 结果 
和 数据 图 
式 基 本 没 


6.5 





可 能 不 是 很 完美 ， 尤 其 是 当 PDF 里 有 图 片 、 各 种 各 样 的 文本 格式 ， 或 者 带 有 表格 
的 时 候 。 但 是 ， 对 大 多 数 只 包含 纯 文本 内 容 的 PDF 而 言 ， 其 输出 结果 与 纯 文 本 格 




















什么 区 别 。 


微软 Word 和 .docx 


冒 着 被 微软 朋友 鄙视 的 风险 说 句 话 ， 我 不 喜欢 微软 的 Word 软件 。 并 不 是 因为 它 是 一 款 烂 
且 因 为 它 的 用 户 误 用 了 它 (好 像 Linus Torvalds 对 C++ HE). Word 的 特异 功 


软件 ， 而 


能 就 是 把 那些 应 该 写成 简单 的 TXT 或 PDF 格式 的 文件 ， 变 成 了 既 大 又 慢 且 难以 打 姑 
经 常 在 系统 切换 和 版 本 切换 中 出 现 格式 不 兼容 ， 而 且 因为 某 些 原因 在 文 们 


兽 ， 它 们 

















[的 怪 








HARE 


经 定稿 后 仍 处 于 可 编辑 的 状态 。Word 文件 从 未 打算 让 人 频繁 传递 。 不 过 它们 在 一 些 网 站 
， 包 括 重要 的 文档 、 信 息 ， 其 至 图 表 和 多 媒体 ， 总 之 ， 那 些 内 容 都 应 该 用 HTML 


上 很 流行 
RE. 























大 约 在 2008 年 以 前 ， 微 软 Office 产品 中 Word 用 .doc 文件 格式 。 这 种 二 进 制 格式 很 难 读 
取 ， 而 且 能 够 读 取 word 格式 的 软件 很 少 。 为 了 跟 上 时 代 ， 让 自己 的 软件 能 够 符合 主流 软 
件 的 标准 ， 微 软 决定 使 用 Open Office 的 类 XML 格式 标准 ， 此 后 新 版 Word 文件 才 与 其 他 
文字 处 理 软件 兼容 ， 这 个 格式 就 是 .docx。 



































不 过 ，Python 对 这 种 Google Docs、Open Office 和 Microsoft Office 都 在 使 用 的 .docx 格 
式 的 支持 还 不 够 好 。 虽 然 有 一 个 python-docx Æ (http://python-docx.readthedocs.org/en/ 
lates/) ， 但 是 只 支持 创建 新 文档 和 读 取 一 些 基 本 的 文件 数据 ， 如 文件 大 小 和 文件 标题 ， 不 
支持 正文 读 取 。 如 果 想 读 取 Microsoft Office 文件 的 正文 内 容 ， 我 们 需要 自己 动手 找 方法 。 














第 一 步 是 从 文件 读 取 XML: 


from zipfile import ZipFile 
from urllib.request import urlopen 
from io import BytesIO 


wordFile = urlopen("http://pythonscraping.com/pages/AWordDocument.docx").read() 
wordFile - BytesIO(wordFile) 

document - ZipFile(wordFile) 

xml content = document.read('word/document.xml') 

print(xml content.decode('utf-8')) 


这 段 代 码 把 一 个 远程 Word 文档 读 成 一 个 二 进 制 文件 对 象 (BytesI0 与 本 章 之 前 用 的 
StringI0 类 似 )， 再 用 Python 的 标准 库 zipfile 解压 (所 有 的 .docx 文件 为 了 节省 空间 都 
进行 过 压缩 )， 然 后 读 取 这 个 解压 文件 ， 就 变 成 XML 了 。 


这 个 Word 文档 在 http://pythonscraping.com/pages/AWordDocument.docx， 内 容 如 图 6-2 所 示 。 





























[3| EH € ) s AWordDocument - Word ? * 一 HB x 
FILE HOME  INSERT DESIGN  PAGELAYOUT REFERENCES MAILINGS — REVIE» 
2. [Calibri Light (Headings) -|28 -| :— 





ul. mam As m 
P! 


B IU-sxx ^ - 
Styles Editing 


y 内 - 岁 -A-Aa-| AK 


Clipboard m Font Ta Paragraph ra Styles ra ^ 





Paste 


A Word Document on a Website 


This is a Word document, full of content that you want very much. Unfortunately, it's difficult to access 
because rm putting it on my website as a .docx file, rather than just publishing it as HTML 

















图 6-2. 这 个 Word 文档 的 正文 内 容 你 可 能 很 想 要 ， 但 是 很 难 获取 ， 因 为 我 把 它 放 在 网 站 的 .docx 文 
件 里 而 不 是 HTML 里 
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IX Bt Python 程序 读 取 这 个 简单 的 Word 文档 后 ， 输 出 的 结果 是 这 样 : 





IT 











«!--?xml version-z"1.0" encoding-z"UTF-8" standalone-z"yes"?--» 
«w:document mc:ignorable-"w14 w15 wp14" xmlns:m-"http://schemas.openx 
mlformats.org/officeDocument/2006/math" xmlns:mcz"http://schemas.open 
xmlformats.org/markup-compatibility/2006" xmlns:o-"urn:schemas-micros 
oft-com:office:office" xmlns:rz"http://schemas.openxmlformats.org/off 
iceDocument/2006/relationships" xmlns:v-"urn:schemas-microsoft-com:vm 
l" xmlns:w-2"http://schemas.openxmlformats.org/wordprocessingml/2006/m 
ain" xmlns:w10-"urn:schemas-microsoft-com:office:word" xmlns:wi4-"htt 
p://schemas.microsoft.com/office/word/2010/wordml" xmlns:wi15z"http:// 
schemas.microsoft.com/office/word/2012/wordml" xmlns:wnez"http://sche 
mas.microsoft.com/office/word/2006/wordml" xmlns:wpz"http://schemas.o 
penxmlformats.org/drawingml/2006/wordprocessingDrawing" xmlns:wpi4-"h 
ttp://schemas.microsoft.com/office/word/2010/wordprocessingDrawing" x 
mlins:wpcz"http://schemas.microsoft.com/office/word/2010/wordprocessin 
gCanvas" xmlns:wpgz"http://schemas.microsoft.com/office/word/2010/wor 
dprocessingGroup" xmlns:wpi-"http://schemas.microsoft.com/office/word 
/[2010/wordprocessingInk" xmlns:wps-"http://schemas.microsoft.com/offi 
ce/word/2010/wordprocessingShape"»«w:body»«w:p w:rsidp-"00764658" w:r 
sidr-"00764658" w:rsidrdefaultz"00764658"»«w:ppr»«w:pstyle w:val-"Tit 
le"s«/w:pstyle»«/w:ppr»«w:r»«w:t»A Word Document on a Website«/w:t»«/ 
w:r»«w:bookmarkstart w:id="0" w:namez" GoBack"»«/w:bookmarkstart»«w:b 
ookmarkend w:id-"0"2«/w:bookmarkends«/w:p»«w:p w:rsidp-"00764658" w:r 
sidr-"00764658" w:rsidrdefaultz"00764658"»«/w:p»«w:p w:rsidp-"0076465 
8" w:rsidrz"00764658" w:rsidrdefault-"00764658" w:rsidrpr-"00764658"» 
<w: r> «w:t»This is a Word document, full of content that you want ve 
ry much. Unfortunately, it's difficult to access because I'm putting 
it on my website as a .«/w:t»«/w:r»«w:prooferr w:type-"spellStart"»«/ 
w:prooferr»«w:r»«w:t»docx«/w:t»«/w:r»«w:prooferr w:type-"spellEnd"s«/ 
w:prooferr» «w:r» «w:t xml:space-"preserve"» file, rather than just p 
ublishing it as HTML«/w:t» «/w:r» «/w:p» «w:sectpr w:rsidr-"00764658" 
w:rsidrprz"00764658"» «w:pgszw:h-" 15840" w:wz"12240"»«/w:pgsz»«w:pgm 
ar w:bottom-"1440" w:footerz"720" w:gutter-z"0" w:header-z"720" w:left- 
"1440" w:right-"1440" w:top-"1440"»«/w:pgmar» «w:cols w:space-"720"»« 
/[w:cols&g; «w:docgrid w:linepitch-z"360"2«/w:docgrid» «/w:sectpr» «/w: 
body» «/w:document» 





确实 包含 了 大 量 信息 ， 但 是 被 隐藏 在 XML 里 面 。 好 在 文档 的 所 有 正文 内 容 都 包含 在 «wit» 
标签 里 面 ， 标 题 内 容 也 是 如 此 ， 这 样 就 容易 处 理 了 。 


IT 
































from zipfile import ZipFile 

from urllib.request import urlopen 
from io import BytesIO 

from bs4 import BeautifulSoup 


wordFile = urlopen("http://pythonscraping.com/pages/AWordDocument.docx").read() 
wordFile - BytesIO(wordFile) 

document - ZipFile(wordFile) 

xml content = document.read( 'word/document.xml') 


wordObj = BeautifulSoup(xml content.decode('utf-8')) 
textStrings = wordObj.findAll("w:t") 





for textElem in textStrings: 
print(textElem.text) 








这 段 代 码 的 结果 并 不 完美 ， 但 是 已 经 差不多 了 ， 一 行 打印 一 个 <w:t> 标签 ， 可 以 看 到 Word 
是 如 何 对 文字 进行 断 行 处 理 的 : 





A Word Document on a Website 
This is a Word document, full of content that you want very much. Unfortunately, 
it's difficult to access because I'm putting it on my website as a . docx 

file, rather than just publishing it as HTML 


你 会 看 到 这 里 “docx” 是 单独 一 行 ， 这 是 因为 在 原始 的 XML 里 ， 它 是 由 <w:proofErr 
w:type-"spellstart"/» 标签 包围 的 。 这 是 Word 用 红色 波浪 线 高 亮 显 示 “docx” 的 方式 ， 
提示 这 个 词 可 能 有 拼写 错误 。 








文档 的 标题 是 由 样式 定义 标签 sw:pstyte w:vat="Titte"/> 处 理 的 。 虽 然 不 能 非常 简单 地 定 
位 标题 (或 其 他 带 样式 的 文本 )， 但 是 用 BeautifulSoup 的 导航 功能 还 是 可 以 帮助 我 们 解决 
问题 的 ， 














textStrings = wordObj.findAll("w:t") 
for textElem in textStrings: 
closeTag = "" 
try: 
style = textElem.parent.previousSibling.find("w:pstyle") 
if style is not None and style["w:val"] -- "Title": 
print("«hi2") 
closeTag = "</h1>" 
except AttributeError: 
# 不 打印 标签 
pass 
print(textElem.text) 
print(closeTag) 

















这 段 代 码 很 容易 进行 扩展 ， 打 印 不 同文 本 样式 的 标签 ， 或 者 把 它们 标记 成 其 他 形式 。 
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第 二 部 分 


高 级 数据 采集 





你 已 经 掌握 了 网 络 数据 采集 的 一 些 基础 知识 ， 现 在 让 我 们 进入 更 有 趣 的 第 二 部 分 。 到 目前 
为 止 ， 我 们 创建 的 网 络 假 虫 还 不 是 特别 给 力 。 如 果 网 络 服务 器 不 能 立即 提供 样式 规范 的 信 
息 ， 扑 虫 就 不 能 正确 地 采集 数据 。 如 果 扑 虫 只 能 采集 那些 显而易见 的 信息 ， 不 经 过 处 理 就 
简单 地 存储 起 来 ， 那 么 迟早 要 被 登录 表单 、 网 页 交互 以 及 JavaScript 困 住 手脚 。 总 之 ， 目 
前 扑 虫 还 设 有 是 够 的 实力 去 采集 各 种 数据 ， 只 能 处 理 那些 愿意 被 采集 的 信息 。 




















这 部 分 内 容 就 是 要 帮 你 分 析 原 始 数 据 ， 获 取 隐藏 在 数据 背后 的 故事 一 一 网 站 的 真实 故事 其 
实 都 隐藏 在 JavaScript、 登 录 表 单 和 网 站 反 抓 取 措施 的 背后 。 








通过 这 部 分 内 容 的 学 习 ， 你 将 掌握 如 何 用 网 络 仆 虫 测试 网 站 ， 自 动 化 处 理 ， 以 及 通过 更 多 
的 方式 接 入 网 络 。 最 后 你 将 学 到 一 些 数 据 采集 的 工具 ， 帮 助 你 在 不 同 的 环境 中 收集 和 操作 
任意 类 型 的 网 络 数据 ， 深 入 互联 网 的 每 个 角落 。 
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到 目前 为 止 ， 我 们 还 没有 处 理 过 那些 样式 不 规范 的 数据 ， 要 么 是 使 用 样式 规范 的 数据 源 ， 
要 么 就 是 彻底 放弃 样式 不 符合 我 们 预期 的 数据 。 但 是 在 网 络 数据 采集 中 ， 你 通常 无 法 对 采 
集 的 数据 样式 太 挑 剔 。 


由 于 错误 的 标点 符号 、 大 小 写字 母 不 一 致 、 断 行 和 拼写 错误 等 问题 ， 零 乱 的 数据 (dirty 
data) 是 网 络 中 的 大 问题 。 本 章 将 介绍 一 些 工 具 和 技术 ， 通 过 改变 代码 的 编写 方式 ， 帮 你 
从 源头 控制 数据 零乱 的 问题 ， 并 且 对 已 经 进入 数据 库 的 数据 进行 清洗 。 


7.1 编写 代码 清洗 数据 
和 和 写 代码 处 理 异常 一 样 ， 你 也 应 该 学 习 编写 预防 型 代码 来 处 理 意外 情况 。 


在 语言 学 里 有 一 个 模型 叫 n-gram， 表 示 文 字 或 语言 中 的 个 连续 的 单词 组 成 的 序列 。 在 进 
行 自然 语言 分 析 时 ， 使 用 n-gram 或 者 寻找 常用 词组 ， 可 以 很 容易 地 把 一 句 话 分 解 成 若干 个 
文字 片段 。 
































这 一 节 我 们 将 重点 介绍 如 何 获取 格式 合理 的 n-gram， 并 不 用 它们 做 任何 分 析 。 在 第 8 章 ， 
我 们 再 用 2-gram 和 3-gram 来 做 文本 摘要 提取 和 语法 分 析 。 














下 面 的 代码 将 返回 维基 百科 词 条 “Python programming language” 的 2-gram 列表 : 








from urllib.request import urlopen 
from bs4 import BeautifulSoup 


def ngrams(input, n): 
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input = input.split(' ') 

output - [] 

for i in range(len(input)-n41): 
output.append(input[i:i«n]) 

return output 


html = urlopen("http://en.wikipedia.org/wiki/Python (programming language)") 
bsObj = BeautifulSoup(html) 

content = bsObj.find("div", ("id":"mw-content-text"]).get text() 

ngrams - ngrams(content, 2) 

print(ngrams) 

print("2-grams count is: "«str(len(ngrams))) 








ngrams 国 数 把 一 个 待 处 理 的 字符 串 分 成 单词 序列 (假设 所 有 单词 按照 空格 分 开 ) ， 然 后 
加 到 n-gram 模型 (本 例 中 是 2-gram) 里 形成 以 每 个 单词 开始 的 二 元 数组 。 


这 段 程序 会 从 文字 中 返回 一 些 有 意思 同时 也 很 有 用 的 2-gram 序列 : 








['of', 'free'], ['free', 'and'], ['and', 'open-source'], ['open-source', 'softwa 
re'] 





不 过 ， 同 时 也 会 出 现 一 些 零乱 的 数据 : 


另外 ， 


['software\nOutline\nSPDX\n\n\n\n\n\n\n\n\nOperating', 'system\nfamilies\n\n\n\n 
AROS\nBSD\nDarwin\neCos\nFreeDOS\nGNU\nHaiku\nInferno\nLinux\nMach\nMINIX\nOpenS 
olaris\nPlan'], ['system\nfamilies\n\n\n\nAROS\nBSD\nDarwin\neCos\nFreeDOS\nGNU\ 
nHaiku\nInferno\nLinux\nMach\nMINIX\nOpenSolaris\nPlan', '9\nReactOS\nTUD:OS\n\n 
\n\n\n\n\n\n\nDevelopment\n\n\n\nBasic'], ['9\nReactOsS\nTUD:0S\n\n\n\In\In\In\In\In\in 
Development\n\n\n\nBasic', 'For'] 





8 7411 个 2-gram 序列 。 这 并 不 是 一 个 非常 便于 管理 的 数据 集 ! 
让 我 们 首先 用 一 些 正 则 表达 式 来 移 除 转 义 字符 〈\n)， 再 把 Unicode 字符 过 滤 掉 。 我 们 可 以 


通过 下 面 的 函数 对 之 前 输出 的 结果 进行 清理 s 


pae edid TF (或 者 多 个 换行 符 ) 替换 成 空格 ， 然 


成 一 



































def ngrams(input, n): 


content = re.sub('\n+', " ", content) 
content = re.sub(' +', " ", content) 
content - bytes(content, "UTF-8") 

content - content.decode("ascii", "ignore") 
print(content) 

input = input.split(' ') 

output - [] 


for i in range(len(input)-n41): 
output.append(input[i:i«n]) 
return output 


增 


因为 每 个 单词 (除了 最 后 一 个 单词 ) 都 要 创建 一 个 2-gram 序列 ， 所 以 这 个 词 条 里 共 


后 把 连续 的 多 个 空格 替换 


空格 ， 确 保 所 有 单词 之 间 只 有 一 个 空格 。 最 后 ， 把 内 容 转换 成 UTF-8 格式 以 消除 转 





vm. 
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这 几 步 已 经 可 以 大 大 改善 输出 结果 了 ， 但 是 还 有 一 些 癌 题 : 


['Pythoneers.[43][44]', 'Syntax'], ['7', L DPZ% 73]; [3 ，==]， ['==', ' 
2'] 


因此 ， 需 要 再 增加 一 些 规则 来 处 理 数据 。 我 们 还 可 以 制定 一 些 规则 让 数据 变 得 更 规范 : 
。 剔除 单字 符 的 “单词 ”， 除 非 这 个 字符 是 ^ m "a"; 
。 剔除 维基 百科 的 引用 标记 〈 方 括号 包 圳 的 数字 ， 如 [1]) ; 


。 剔除 标点 符号 (注意 : 这 个 规则 有 点 儿 矫 枉 过 正 ， 在 第 9 章 我 们 将 详细 介绍 ， 本 例 暂 时 
这 样 处 理 )。 


现在 “清洗 任务 ”列表 变 得 越 来 越 长 ， 让 我 们 把 规则 都 移出 来 ， 单 独 建 一 个 函数 ， 就 叫 


cleanInput. 
































from urllib.request import urlopen 
from bs4 import BeautifulSoup 
import re 

import string 


def cleanInput(input): 
input = re.sub('An*', 


, input) 


input = re.sub('V[[0-9]*M]', "", input) 
input = re.sub(' +', " ", input) 
input = bytes(input, "UTF-8") 


input = input.decode("ascii", "ignore") 
cleanInput = [] 
input = input.split(' ') 
for item in input: 
item = item.strip(string.punctuation) 
if len(item) > 1 or (item.lower() == 'a' or item.lower() == 'i'): 
cleanInput.append(item) 
return cleanInput 


def ngrams(input, n): 
input = cleanInput(input) 
output - [] 
for i in range(len(input)-n41): 
output.append(input[i:i-n]) 
return output 





这 里 用 import string 和 string.punctuation 来 获取 Python 所 有 的 标点 符号 。 你 可 以 在 
Python 命令 行 看 看 标点 符号 有 哪些 : 

>>> import string 

>>> print(string.punctuation) 

V'RSXR' ()*+,-./:;<=>?@[\]^_ {|}~ 
在 循环 体 中 用 item.strip(string.punctuation) 对 内 容 中 的 所 有 单词 进行 清洗 ， 单词 两 端 
的 任何 标点 符号 都 会 被 去 掉 ， 但 带 连 字符 的 单词 ( 连 字 符 在 单词 内 部 ) 仍然 会 保留 。 
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这 样 输出 的 2-gram 结果 就 更 干净 了 : 


['Linux', 'Foundation'], ['Foundation', 'Mozilla'], ['Mozilla', 'Foundation'], [ 
'Foundation', 'Open'], ['Open', 'Knowledge'], ['Knowledge', 'Foundation'], ['Fou 
ndation', 'Open'], ['Open', 'Source'] 


数据 标准 化 
每 个 人 都 会 遇 到 一 些 样式 设计 不 够 人 性 化 的 网 页 ， 比 如 “请 输入 你 的 电话 号 码 。 号 码 格式 


必须 是 XXX-XXX-XXXX o 


作为 一 名 优秀 的 程序 员 ， 你 可 能 会 问 :“ 为 什么 不 自动 地 对 输入 的 信息 进行 清洗 ， 去 掉 非 
数字 内 容 ， 然后 自动 把 数据 加 上 分 隔 符 呢 ? ”数据 标准 化 过 程 要 确保 清洗 后 的 数据 在 语言 
学 或 逻辑 上 是 等 价 的 ， 比 如 电话 号 码 虽 然 显 示 成 “(555) 123-4567” 和 “555.123.4567” 两 
种 形式 ， 但 是 实际 号 码 是 一 样 的 。 














还 用 之 前 的 n-gram 示例 ， 让 我 们 在 上 面 增加 一 些 数据 标准 化 特征 。 


这 段 代 码 有 一 个 明显 的 问题 ， 就 是 输出 结果 中 包含 太 多 重复 的 2-gram 序列 。 程 序 把 每 个 
2-gram 序列 都 加 入 了 列表 ， 没 有 统计 过 序列 的 频率 。 掌 握 2-gram 序列 的 频率 ， 而 不 只 是 
知道 某 个 序列 是 否 存在 ， 这 不 仅 很 有 意思 ， 而 且 有 助 于 对 比 不 同 的 数据 清洗 和 数据 标准 化 
算法 的 效果 。 如 果 数 据 标准 化 成 功 了 ， 那 么 唯一 的 n-gram 序列 数量 就 会 减少 ， 而 n-gram 
序列 的 总 数 (任何 一 个 n-gram 序列 和 与 之 重复 的 序列 被 看 成 一 个 n-gram 序列 ) 不 变 。 也 
就 是 说 ， 同 样 数量 的 n-gram 序列 ， 经 过 去 重 之 后 “容量 ”(bucket) 会 减少 。 












































不 过 Python 的 字典 是 无 序 的 ， 不 能 像 数 组 一 样 直 接 对 n-gram 序列 频率 进行 排序 。 字 典 内 
部 元 素 的 位 置 不 是 固定 的 ， 排 序 之 后 再 次 使 用 时 还 是 会 变化 ， 除 非 你 把 排序 过 的 字典 里 的 
值 复制 到 其 他 类 型 中 进行 排序 。 在 Python 的 collections 库 里 面 有 一 个 OrderedDict 可 以 
解决 这 个 问题 : 











from collections import OrderedDict 


ngrams = ngrams(content, 2) 
ngrams = OrderedDict(sorted(ngrams.items(), key=lambda t: t[1], reverse=True)) 
print(ngrams) 


这 里 我 用 了 Python 的 排序 函数 (https://docs.python.org/3/howto/sorting.html) 把 序列 频率 转 
换 成 orderedDict 对 象 ， 并 按照 频率 值 排序 。 结 果 如 下 ; 





("['Software', 'Foundation']", 40), ("['Python', 'Software']", 38), ("['of', 'th 
e']", 35), ("['Foundation', 'Retrieved']", 34), ("['of', 'Python']", 28), ("['in 
'y 'the']", 21), ("['van', 'Rossum']", 18) 
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在 写作 本 书 的 时 候 ， 词 条 内 容 一 个 有 7696 个 2-gram 序列 ， 其 中 不 重复 的 2-gram 序列 有 
6005 个 ， 频 率 最 高 的 2-gram 序列 是 “Software Foundation" fH "Python Software”。 但 是 ， 
仔细 观察 结果 发 现 还 有 字母 大 小 写 的 影响 , "Python Software” 有 两 次 是 “Python software" 
的 形式 。 同 样 , “van Rossum” 和 “Van Rossum” 也 是 作为 两 个 序列 统计 的 。 


因此 ， 增 加 一 行 代码 : 











input = input.upper() 


到 cleanInput 图 数 里 ， 这 样 2-gram 序列 的 总 数 还 是 7696， 而 不 重复 的 2-gram 序列 减少 到 
了 5882 个 。 


除了 这 些 ， 还 需要 再 考虑 一 下 ， 自 己 计划 为 数据 标准 化 的 进一步 深入 再 投入 多 少 计算 能 
力 。 很 多 单词 在 不 同 的 环境 里 会 使 用 不 同 的 拼写 形式 ， 其 实 都 是 等 价 的 ， 但 是 为 了 解决 这 
种 等 价 关 系 ， 你 需要 对 每 个 单词 进行 检查 ， 判 断 是 否 ;和 其 他 单词 有 等 价 关系 。 


比如 , "Python 1st” 和 “Python first” 都 出 现在 2-gram 序列 列表 里 。 但 是 ， 如 果 增 加 一 条 
规则 :“ 让 所 有 “first” ‘second’ "third! + 与 1st，2nd，3rd…… 等 价 ”， 那 么 每 个 单词 
都 要 额外 增加 十 儿 次 检查 。 


同 理 ， 连 字符 使 用 不 一 致 ( 像 “co-ordinated” 和 “coordinated”)、 单 词 拼写 错误 以 及 其 他 
语 病 (incongruities)， 都 可 能 对 n-gram 序列 的 分 组 结果 造成 影响 ， 如 果 语 病 很 严重 的 话 ， 
还 可 能 彻底 打 乱 输出 结果 。 


对 带 连 字符 单词 的 一 个 处 理 方法 是 ， 先 把 连 字符 去 掉 ， 然 后 把 单词 当 作 一 个 字符 串 ， 这 可 
能 需要 在 程序 中 增加 一 步 操作 。 但 是 ， 这 样 做 也 可 能 把 带 连 字符 的 短语 (这 是 很 常见 的 ， 
比如 “just-in-time”“object-oriented” 等 ) 处 理 成 一 个 字符 串 。 要 是 换 一 种 做 法 ， 把 连 字符 
替换 成 空格 可 能 更 好 一 点 儿 。 但 是 就 得 准备 见 到 “co ordinated” 和 “ordinated attack” Z% 
的 2-gram 序列 了 ! 


s " NE 

7.2. 数据 存储 后 再 清 ; 

对 于 编写 代码 清洗 数据 ， 你 能 做 或 想 做 的 事情 只 有 这 些 。 除 此 之 外 ， 你 可 能 还 需要 处 理 一 
些 别 人 创建 的 数据 库 ， 或 者 要 对 一 个 之 前 没 接触 过 的 数据 库 进行 清洗 。 

很 多 程序 员 遇 到 这 种 情况 的 自然 反应 就 是 “ 写 个 脚本 ”， 当 然 这 也 是 一 个 很 好 的 解决 方法 。 
但 是 ， 还 有 一 些 第 三 方 工 具 ， 像 OpenRefine， 不 仅 可 以 快速 简单 地 清理 数据 ， 还 可 以 让 非 
编程 人 员 轻 松 地 看 见 和 使 用 你 的 数据 。 
















































































OpenRefine 
OpenRefine (http://openrefine.org/) 是 Metaweb 公 司 2009 年 发布 的 一 个 开源 软件 。 
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Google 在 2010 年 收购 了 Metaweb， 把 项 目的 名 称 从 Freebase Gridworks 改 成 了 Google 
Refine, 2012 Æ, Google 放弃 了 对 Refine 的 支持 ， 让 它 重 新 成 为 开源 软件 ， 名 字 改 成 了 
OpenRefine， 现 在 每 个 人 都 可 以 为 这 个 项 目 做 贡献 。 





rc 


1. X 

OpenRefine 的 独特 之 处 在 于 虽然 它 的 界面 是 一 个 浏览 器 ， 但 实际 上 是 一 个 桌面 应 用 ， 必 
须 下 载 并 安装 。 你 可 以 从 它 的 下 载 页面 (http://openrefine.org/download.html) 下 载 对 应 
Linux, Windows 和 Mac OS X 系统 的 版 本 。 


如 果 你 是 Mac 用 户 ， 打 开 安 装 文件 的 时 候 遇 到 了 安装 权限 问题 ， 请 到 系统 偏 
好 设置 一 安全 性 与 隐私 一 通用 ， 把 “允许 从 以 下 位 置 下 载 的 应 用 程序 ”的 选 
项 设置 为 “任何 来 源 ”。 从 Google 项 目 转 成 开源 项 目 之 后 ，OpenRefine 好 像 
在 苹果 系统 中 失去 了 合法 性 ， 不 再 是 来 源 合 法 的 应 用 程序 了 。 























要 使 用 OpenRefine， 你 得 把 数据 转换 成 CSV 文件 (如果 你 需要 了 解 如 何 生 成 CSV 文件 ， 
请 参考 5.2 节 的 内 容 )。 另 外 ， 如 果 你 的 数据 已 经 保存 在 数据 库 中 ， 你 可 能 要 先 把 数据 导 成 
CSV 格式 。 


2. 使 用 OpenRefine 

在 下 面 的 例子 中 ， 我 们 将 使 用 维基 百科 的 “文本 编辑 器 对 比 ” 表 格 (https://en.wikipedia. 
org/wiki/Comparison of text editors) 里 的 内 容 ， 如 图 7-1 所 示 。 虽 然 这 个 表 的 样式 比较 规 
范 ， 但 里 面包 含 了 多 次 编辑 的 痕迹 ， 所 以 还 是 有 一 些 样 式 不 一 致 的 地 方 。 另 外 ， 因 为 这 个 
数据 是 写 给 人 看 的 ， 而 不 是 让 机 器 看 的 ， 所 以 原来 使 用 的 一 些 样 式 (比如 用 “Free” 而 不 
是 “$0.00”) 不 太 合 适 作为 OpenRefine 程序 的 输入 数据 。 














75 rows Extensions: Freebase ~ 
Show as: rows records Show: 5 10 25 50 rows « first < previous 1 - 50 next» last > 
TAI v| Name Y | Creator | First public rele: | v | Latest stable ver | | Programming language | v | Cost (US$) 了 | Software license | v | Open source 

1. Acme Rob Pike 1993 Plan9andinfemo C so LPL (OSI approved) Yes 

2. AkelPad Alexey Kuznetsov, Alexander 2003 490 c so BSD Yes 

Shengalts 
3.  Alphatk Vince Darley 1999 83.3 S40 Proprietary with BSD — No 
components. 
4. Aquamacs David Reitter 2005 30a C, Emacs Lisp so GPL Yes 
5. Atom Github 2014 0.1320 des CSS, JavaScript, — $0 MIT Yes 
et 

6. BBEdit Rich Siegel 1992-04 10.5.12 Objective-C, Objective-C++ $49.99 Proprietary No 

7. Bluefish Bluefish Development Team 1999 2.2.6 c so GPL Yes 

8. Coda Panic 2007 20.12 Objective-C s99 Proprietary No 

9. ConTEXT ConTEXT Project Ltd 1999 0.98.6 Object Pascal (Delphi) so BSD Yes 

10. Crimson Editor  Ingyu Kang, Emerald Editor Team 1999 372 Ce so GPL Yes 

41. Diakonos Pistos 2004 092 Ruby so MIT Yes 

12. ETextEditor Alexander Stigsen 2005 202 $46.95 Proprietary with BSD — No 

components 
13. ed Ken Thompson 1970 unchangedfrom C so ? Yes 
original 
14. EditPlus Sangil Kim. 1998 35 Ce $35 Shareware No 
15. Edita Cody Precord 2007 0677 Python so waWindowslicense Yes 











& 7-1; 显示 在 OpenRefine 屏幕 上 的 维基 百科 的 “文本 编辑 器 对 比 ”表格 数据 
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使 用 OpenRefine 会 看 到 每 一 列 的 标签 旁边 都 有 一 个 箭头 。 这 个 箭头 提供 了 一 个 工具 菜单 ， 
可 以 对 这 一 列 数据 执行 筛选 排序、 变换 或 删除 等 操作 。 


筛选 。 数 据 箭 选 可 以 通过 两 种 方法 实现 : 过 滤器 (filter) 和 切片 器 (facet)。 过 滤器 可 以 用 
正则 表达 式 筛选 数据 ， 比 如 “只 显示 编程 语言 这 一 列 中 用 逗号 分 隔 且 超过 三 种 编程 语言 的 
BUR. SURE 7-2 所 示 。 











Facet / Filter ^ Undo / Redo 1 5 matching rows (75 total) 
Refresh Reset All Remove All Show as: rows records Show: 5 10 25 50 rows 
x Programming language v AII v Name v Creator v First public re 
5. Atom Github 201 
SS) 
28. Komodo Edit Activestate open-sourced 2007 
[ case sensitive (M regular expression 29. Komodo IDE Activestate 200 
59. Sublime Text Jon Skinner 200 
74. Zed Zef Hemel 201 











图 7-2: 正则 表达 式 “.+,.+,.+” 选 择 用 逗号 分 隔 且 至 少 有 三 种 编程 语言 的 所 有 行 


大 
过 滤器 可 以 通过 右边 的 操作 框 轻松 地 组 合 、 编 辑 和 增加 数据 ， 还 可 以 和 切片 器 配合 使 用 。 








切片 器 可 以 很 方便 地 对 一 列 的 部 分 数据 进行 包含 和 不 包含 的 筛选 〈 比 如 ,“ 显 示 使 用 GPL 
和 MIT 授权 且 在 2005 年 之 后 首次 发 行 的 所 有 行 ”， 结 果 如 图 7-3 所 示 )。 它 们 都 有 内 置 的 得 
选 工 具 。 例 如 ， 数 值 筛选 功 能 会 为 你 提供 一 个 数值 请 动 窗 口 ， 让 你 选择 需要 的 数值 区 间 。 
































Facet/Filter ^ Undo / Redo : 7 matching rows (75 total) 

Refresh Reset All Remove All Show as: rows records Show: 5 10 25 50 rows 

> Software license change invert reset v Al "Name vV Creator * | First public r 

5 choices Sort by: name count Cluster 4.  Aquamacs David Reitter 2c 
5. | Atom Github 2c 

GPL 5 exclude , 

MIT 2 etude. 19. Geany Enrico Trvager 2c 

Proprietary 5 21. Gobby 0x539 dev group 2c 

Proprietary, with BSD components : 33. LightTable Chris Granger 2c 

wxWindows license : 73. Yi Don Stewart 2c 


Facet by choice counts 74. Zed Zef Hemel 2c 


* First public release change reset 


[ 








2,005.00 — 2,015.00 


Numeric 口 Non-numeric (Blank (Error 
24 3 0 0 











7-8. 显示 使 用 GPL 和 MIT 授权 且 在 2005 年 之 后 首次 发 行 的 所 有 行 
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经 过 选 过 的 数据 结果 可 以 被 导 成 任意 一 种 OpenRefine 支持 的 数据 文件 格式 ， 包 括 CSV、 
HTML (HTML 表格 ) Excel 以 及 其 他 格式 。 


清洗 。 只 有 当 数 据 一 开始 就 比较 干净 时 ， 数 据 筛 选 才 可 以 直接 快速 地 完成 。 例 如 ， 在 上 一 
节 切 片 器 的 例子 中 ， 有 个 文本 编辑 器 的 发 行 日 期 是 “01-01-2006”， 而 真正 要 寻找 的 数值 
是 “2006”， 所 以 不 能 匹配 ,会 被 忽略 掉 ， 因 此 在 “First public release” 切 片 器 中 就 不 会 
显示 了 。 





ipw 的 数据 变换 功能 是 通过 OpenRefine 表达 式 语 言 (Expression Language) 实现 
， 被 称 为 GREL (“G” 是 OpenRefine 之 前 的 名 字 GoogleRefine)。 这 个 语言 通过 创建 规 
ihe lambda 函数 来 实现 数据 的 转换 。 例 如 : 


if(value.length() != 4, "invalid", value) 


如 果 把 这 个 函数 应 用 到 “First stable release” 列 ， 它 就 只 会 保留 那些 “YYYY” 形 式 的 数 
值 ， 把 其 他 数值 标记 成 “invalid” (无 效 数 据 ) 。 


点 击 列 标签 旁边 的 问 下 箭头 ， 再 点 击 “Edit cells” 一 “transform”， 就 可 以 使 用 任何 GREL 
语句 。 上 面 函数 的 运行 结果 如 图 7-4 所 示 。 








Custom text transform on column First public release 





Expression Language | Google Refine Expression Language (GREL) * | 








if(value.length() !- 4, "invalid", value) No syntax error 


Preview History Starred Help 


. 1999 1999 
. 1993 1993 
. 1991 1991 
. 1985 1985 
. 2003-11-25 invalid 
. 2004-04 invalid 
. 1995 1995 


^ 1 


On error (9) keep original 口 Re-transform up to [10] times until no change 
© setto blank 
C) store error 


OK | Cancel | 














图 7-4: 在 项 目 中 插入 一 行 GREL 语句 (结果 预览 显示 在 语句 下 面 ) 
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但 是 ， 把 不 符合 条 件 的 数据 标记 成 无 效 数据 ， 虽 然 可 以 让 它们 变 得 容易 识别 ， 但 是 对 我 们 
用 处 不 大 。 我 们 想 要 的 是 尽 可 能 地 修复 那些 格式 不 规范 的 数据 。 这 可 以 用 GERL 的 match 
函数 实现 : 





value.match(".*([0-9]{4}).*").get(0) 
这 是 用 正则 表达 式 对 字符 串 数据 进行 匹配 。 如 果 正 则 表达 式 能 够 匹配 出 结果 ， 就 会 返回 一 


个 数组 。 任 何 符合 正则 表达 式 “捕获 组 ”(capture group). 条 件 的 子 字符 串 ( 指 的 是 括号 里 
的 表达 式 ， 本 例 中 是 “[0-9]{4}”) 都 会 作为 数组 数值 返回 。 



































其 实 ， 这 行 代码 会 从 一 个 单元 格 中 找 出 所 有 的 连续 的 四 位 整数 ， 然 后 返回 第 一 个 匹配 结果 。 
一 般 情 况 下 ， 用 这 个 国 数 从 文字 或 格式 不 规范 的 数据 中 提取 年 份 完全 可 行 。 如 果 正 则 表达 
式 没 有 找到 年 份 ， 就 会 返回 “null”(GERL 操作 null 变量 的 时 候 不 会 抛 出 空 指针 异常 )。 





OpenRefine 还 有 许多 关于 单元 格 编辑 和 GERL 数据 变换 的 方法 。 详 细 介 绍 在 OpenRefine 
的 GitHub 页 面 (https://github.com/OpenRefine/OpenRefine/wiki/General-Refine-Expression- 
Language), 











到 目前 为 止 ， 我 们 处 理 的 数据 大 部 分 都 是 数字 或 数值 (countable value)。 大 多 数 情况 下 ， 
我 们 只 是 简单 地 存储 数据 ， 没 有 分 析 数 据 。 在 这 一 章 里 ， 我 们 将 尝试 探索 英语 这 个 复杂 的 
TEE, ` 





当 你 在 Google 的 图 片 搜索 里 输入 “cute kitten" FF, Google 怎么 会 知道 你 要 搜索 什么 呢 ? 

其 实 这 个 词组 与 可 爱 的 小 猫咪 是 密切 相关 的 。 当 你 在 YouTube 搜索 框 中 输入 “dead parrot" 
的 时 候 ，YouTube 怎么 会 知道 要 推荐 一 些 Monty Python 乐团 的 幽默 短 剧 呢 ? 那 是 因为 每 个 
上 传 的 视频 里 都 带 有 标题 和 简介 文字 。 














其 实 ， 输 入 “deceased bird monty python” 这 类 短语 时 ， 即 使 页 面 上 没有 单词 “deceased” 
或 “bird”， 也 会 立即 显示 同样 的 “Dead Parrot” HERJA Google 知道 “hot dog” 是 一 种 
fV, "boiling puppy” 却 是 另 一 种 完全 不 同 的 东西 。 它 究竟 是 怎么 实现 的 呢 ? 其 实 这 一 切 
都 是 统计 学 在 起 作用 ! 








虽然 你 可 能 认为 自己 的 项 目 和 文本 分 析 没 有 任何 关系 ， 但 是 理解 文本 分 析 的 原理 对 各 种 机 
器 学 习 场景 都 是 非常 有 用 的 ， 而 且 还 可 以 进一步 提高 自己 利用 概率 论 和 算法 知识 对 现实 问 
题 进行 抽象 建 模 的 能 





Ed: 虽然 这 一 章 介绍 的 很 多 方法 可 以 用 于 大 多 数 其 他 语种 ， 但 是 目前 只 关注 英语 的 自然 语言 处 理 是 没有 
问题 的 。 像 Python 的 自然 语言 处 理工 具 包 (Natural Language Toolkit，NLTK) 就 是 面向 英语 的 。 互 
联网 上 55% 的 内 容 依然 是 英文 (其 次 是 俄语 和 德语 ， 均 不 足 6% ，http:Ww3techs.comy/technologies/ 
overview/content_language/all) 。 但 是 谁 知 道 未 来 会 怎样 呢 ? 英语 占 互 联网 大 头 的 情况 未 来 几乎 肯定 会 
变化 ， 而 且 未 来 几 年 内 就 需要 改变 。 
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例如 ，Shazam 音乐 雷达 是 一 种 可 以 识别 出 一 段 音频 中 包含 哪 首 歌 的 服务 ， 即 使 音频 中 包 
含 了 环绕 的 噪声 或 失真 也 没 问题 。Google 正在 通过 图 片 内 容 识 别 自动 增加 识别 文字 。” EE 
如 对 已 知 的 热狗 图 片 和 其 他 热狗 图 片 进行 对 比 ， 搜 索引 擎 就 可 以 通过 不 断 地 学 习 擎 握 热 狗 
的 特征 ， 然 后 对 其 他 图 片 进行 模式 识别 ， 判 断 图 片 是 不 是 热狗 。 











8.1 概括 数据 





在 第 7 章 里 ， 我 们 介绍 过 如 何 把 文本 内 容 分 解 成 n-gram 模型 ,或 者 说 是 nn 个 单词 长 度 的 
词组 。 从 最 基本 的 功能 上 说 ， 这 个 集合 可 以 用 来 确定 这 段 文字 中 最 常用 的 单词 和 短语 。 另 











外 ， 还 可 以 提取 原文 中 那些 最 常用 的 短语 周 











围 的 句子， 对 原文 进行 看 似 合 到 








的 概括 。 





我 们 即将 用 来 做 数据 归纳 的 文字 样本 源 自 美国 第 九 任 总 统 威廉 ， 享 利 ， 哈里 森 的 就 职 演 
说 。 哈 里 森 的 总 统 生 涯 创下 美国 总 统 任职 历史 的 两 个 记录 : 一 个 是 最 长 的 就 职 演 说 ， 男 一 








个 是 最 短 的 任职 时 间 一 一 32 天 。 





我 们 将 用 他 的 总 统 就 职 演说 (http://pythonscraping.com/files/inaugurationSpeech.txt) 的 全 文 


作为 这 一 章 许多 示例 代码 的 数据 源 。 


简单 修改 一 下 我 们 在 第 7 章 里 用 过 的 n-gram 模型 ， 就 可 以 获得 2-gram 序列 的 频率 数据 ， 
然后 我 们 用 Python 的 operator 模块 对 2-gram 序列 的 频率 字典 进行 排序 : 


from urllib.request import urlopen 
from bs4 import BeautifulSoup 
import re 

import string 

import operator 


def cleanInput(input): 
input = re.sub('\n+', 


, input). 


lower() 


input = re.sub('V[[0-9]*M]', "", input) 
input = re.sub(' +', " ", input) 
input - bytes(input, "UTF-8") 


input = input.decode("ascii", "ignore") 


cleanInput = [] 
input = input.split(' ') 
for item in input: 


item = item.strip(string.punctuation) 
if len(item) » 1 or (item.lower() -- 'a' or item.lower() -- 


cleanInput.append(item) 
return cleanInput 


def ngrams(input, n): 
input = cleanInput(input) 





"ey 


注 2: 详情 请 见 “A Picture Is Worth a Thousand (Coherent) Words: Building a Natural Description of Images" (— 





图 胜 千言 : 图 像 含义 自动 描述 的 实现 方法 ) 2014 4 





E11 H 17 H (http://bit.ly/1HEJ8kX). 
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输 


这 些 2-eram 序列 中 ， 
起 来 六 


前 人 已 经 仔细 地 研究 过 这 些 “ 有 意义 的 ”单词 和 “ 没 意 义 的 ” 自 


output = () 
for i in range(len(input)-n41): 


ngramTemp - 
if ngramTemp not in output: 


.join(input[i:i«n]) 


output[ngramTemp] = 0 


output[ngramTemp] += 1 


return output 


content - 
urlopen("http://pythonscraping.com/files/inaugurationSpeech.txt").read(), 


str( 


'utf-8') 


ngrams - ngrams(content, 2) 
sortedNGrams - sorted(ngrams.items(), key - operator.itemgetter(1), reverse-True) 
print(sortedNGrams) 


出 结果 的 一 


部 分 是 : 


[('of the', 213), ('in the', 65), ('to the', 61), ('by the', 41), ('t 
he constitution', 34), ('of our', 29), ('to be', 26), ('from the', 24 
), ('the people', 24), ('and the', 23), ('it is', 23), ('that the', 2 
3), ('of a', 22), ('of their', 19) 




















"the constitution" RAAE Er, "of the” “in the" 4H “to the" 
F 不 重要 。 怎 么 才能 用 准确 的 方式 去 掉 这 些 不 想 要 的 词 呢 ? 


看 


单词 的 差异 了 ， 他 们 的 工作 


可 以 帮助 我 们 完成 过 滤 工 作 。 美 国 杨 百 翰 大 学 的 语言 学 教授 Mark Davies 一 直 在 维护 当代 
美式 英语 语料库 (Corpus of Contemporary American English, http://corpus.byu.edu/coca/) , 


里 














面包 含 了 1990~2012 年 美国 畅销 作品 里 的 超过 4.5 亿 个 单词 。 
最 常用 的 5000 个 单词 列表 可 以 免费 获取 ， 作 为 一 个 基 




















序列 绰绰有余 。 甚 实 只 用 前 100 个 单词 就 可 以 大 幅 改 善 分 析 结 果 ， 我 们 增加 一 个 
函数 来 实现 : 


def isCommon(ngram): 
commonWords - ["the", "be", "and", "of", "a", "in", 


for 


ipit. "that", "for", "you", "he", "with", "on", "d 
"they", "et. "an", GE i "but","we", "his", "fro 


"by", "she", "opi. as", "what", "go", "their", "c 


"Af". "would", "her", "all", "my", "make", "about", 
"one", "time", "has", "been", "there", 
"people", "take", 

e", "could", "now", 
"than", "like", "other", "how", "then", "its", "our", "two", "more", 


"as", "up", 
"think", "when", "which", "them", "some", "me", 
"out", "into", "just", "see", "him", "your", "com 


"these", "want", "way", "look", "first", "also", 
"day", "more", "use", "no" 
"many", "well"] 
word in ngran: 
if word in commonWords: 
return True 


return False 


no", "man", "find", "here", 


to", "have", "it", 
o", "say", "this", 
m", "that", "not", 
an", "who", "get", 
"know", "will", 
"year", "so", 


"new", "because", 
"thing", "give", 


Ak A BJ SE UE e oe E Ue Bc HAI 2-gram 


isCommon 
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这 样 处 理 之 后 ， 就 可 以 得 到 在 样本 文字 中 出 现 的 频率 不 低 于 三 次 的 2-gram 序列 ， 如 下 所 示 : 

















('united states', 10), ('executive department', 4), ('general governm 
ent', 4), ('called upon', 3), ('government should', 3), ('whole count 
ry', 3), ('mr jefferson', 3), ('chief magistrate', 3), ('same causes' 
, 3), ('legislative body', 3) 


效果 看 着 不 错 ， 列 表 中 的 前 两 项 是 “United States" FA “executive department”， 和 我 们 对 
就 职 演说 的 期 待 是 一 样 的 。 


这 里 需要 注意 的 是 ， 我 们 是 用 比较 新 的 常用 词 列表 过 滤 结 果 的 ， 这 对 1841 年 写 出 来 的 文 





字 来 说 可 能 不 是 非常 合适 。 但 是 ， 因 为 我 们 只 用 了 列表 里 前 100 个 单词 


认为 ， 











我 们 姑且 可 以 
随 着 年 代 的 变化 ， 这 100 个 单词 应 该 比 列表 最 后 的 100 个 单词 要 更 具 稳 定性 一 一 而 








且 我 们 也 获得 了 满意 的 结果 ， 所 以 好 像 也 不 必 控 掘 或 创建 一 组 1841 年 最 常用 的 单词 列表 
(虽然 这 样 的 努力 可 能 会 很 有 趣 )。 





现在 一 些 核心 的 主题 词 已 经 从 文本 中 抽取 出 来 了 ， 它 们 怎么 帮助 我 们 归纳 这 段 文字 呢 ? 一 
种 方法 是 搜索 包含 每 个 核心 n-gram 序列 的 第 一 句 话 ， 这 个 方法 的 理论 是 英语 中 段落 的 首 句 












































往往 是 对 后 面 内 容 的 概述 。 前 五 个 2-gram 序列 的 搜索 结果 是 : 


当然 ， 


The Constitution of the United States is the instrument containing this grant of power to the 
several departments composing the government. 

Such a one was afforded by the executive department constituted by the Constitution. 

The general government has seized upon none of the reserved rights of the states. 

Called from a retirement which I had supposed was to continue for the residue of my life 
to fill the chief executive office of this great and free nation, I appear before you, fellow- 
citizens, to take the oaths which the constitution prescribes as a necessary qualification for 
the performance of its duties; and in obedience to a custom coeval with our government 
and what I believe to be your expectations I proceed to present to you a summary of the 
principles which will govern me in the discharge of the duties which I shall be called upon 
to perform. 

The presses in the necessary employment of the government should never be used to clear 


the guilty or to varnish crime. 





这 些 估 计 还 不 能 马上 发 布 到 CliffsNotes 上 面 ， 但 是 考虑 到 全 文 原来 一 共有 217 名 











话 ， 而 这 里 的 第 四 名 话 ("Called from a retirement...”) 已 经 把 主题 总 结 得 很 好 了 ， 作 为 初 
稿 应 该 能 凑合 。 


8.2 马尔 可 夫 模 型 


你 可 能 听 说 过 马尔 可 夫 文 字 生 成 器 (Markov text generator) 。 它 们 是 一 种 非常 受 欢 迎 的 娱 
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乐 方式 ， 像 Twitov App (http:Wtwitov.extrafuture.com/) ， 还 可 以 用 它们 为 傻瓜 测试 系统 生 
成 看 似 真实 的 垃圾 邮件 。 


这 些 文字 生成 器 都 是 基于 一 种 常用 于 分 析 大 量 随机 事件 的 马尔 可 夫 模 型 ， 随 机 事件 的 特点 
是 一 个 离散 事件 发 生 之 后 ， 另 一 个 离散 事件 将 在 前 一 个 事件 的 条 件 下 以 一 定 的 概率 发 生 。 



































例如 ， 我 们 可 以 对 一 个 天 气 系统 建立 马尔 可 夫 模 型 ， 如 图 8-1 所 示 。 




















88-1: 马尔 可 夫 模 型 描述 的 理论 天 气 系统 


在 这 个 天 气 系统 模型 中 ， 如 有 果 今天 是 晴天 ， 那 么 明天 有 7096 的 可 能 是 晴天 ，20% 的 可 能 
多 云 ，10% 的 可 能 下 雨 。 如 果 今 天 是 下 雨天 ， 那 么 明天 有 50% 的 可 能 也 下 雨 ，25% 的 可 
能 是 晴天 ，25% 的 可 能 是 多 云 。 





需要 注意 以 下 几 点 。 








。 任何 一 个 节点 引出 的 所 有 可 能 的 总 和 必须 等 于 100%。 无 论 是 多 么 复杂 的 系统 ， 必 然 会 
在 下 一 步 发 生 若 干事 件 中 的 一 个 事件 。 

。 虽然 这 个 天 气 系统 在 任 一 时 间 都 只 有 三 种 可 能 ， 但 是 你 可 以 用 这 个 模型 生成 一 个 天 气 状 
态 的 无 限 次 转移 列表 。 

。 只 有 当前 节点 的 状态 会 影响 后 一 天 的 状态 。 如 果 你 在 “有 晴天 ”节点 上 ， 即 使 前 100 天 都 
是 晴天 或 雨天 都 没关系 ， 明 天 晴天 的 概率 还 是 70%。 

。 有 些 节 点 可 能 比 其 他 节点 较 难 到 达 。 这 个 现象 的 原因 用 数学 来 解释 非常 复杂 ， 但 是 可 以 
直观 地 看 出 ， 在 这 个 系统 中 任意 时 间 节 点 上 ， 第 二 天 是 “雨天 ”的 可 能 性 〈 指 向 它 的 箭 
头 概 率 之 和 小 于 “100%”) 比 “上 晴天 ”或 “多 云 ” 要 小 很 多 。 

















很 明显 ， 这 是 一 个 很 简单 的 系统 ， 而 马尔 可 夫 模型 可 以 演化 成 任意 规模 的 复杂 系统 。 事 实 
E, Google 的 page rank 算法 也 是 基于 马尔 可 夫 模 型 ， 把 网 站 做 为 节点 ， 入 站 /出 站 链接 
做 为 节点 之 间 的 连 线 。 连 接 某 一 个 节点 的 “可 能 性 ”(likelihood) 表示 一 个 网 站 的 相对 关 
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注 度 。 也 就 是 说 ， 如 果 我 们 的 天 气 系统 表示 一 个 微型 互联 网 ， 那 么 
(page rank) 相对 比较 低 ， 而 “多 云 ” 的 页 面 等 级 相对 比较 高 。 
































“雨天 ”的 页 面 等 级 











了 解 了 这 些 概 念 之 后 ， 让 我 们 再 回 到 本 节 的 主题 ， 研 究 一 个 具体 的 例子 : 文本 分 析 与 写作 。 




















还 用 前 面 例子 里 分 析 的 威廉 ， 享 利 : 哈里 森 的 就 职 演讲 内 容 ， 我 们 可 以 写 出 下 面 的 代码 ， 

















通过 演讲 内 容 的 结构 生成 任意 长 度 的 (下 面 示例 中 链 长 为 100) 马尔 可 夫 链 组 成 





from urllib.request import urlopen 
from random import randint 


def wordListSum(wordList): 
sum = 0 
for word, value in wordList.items(): 
sum += value 
return sum 


def retrieveRandomWord(wordList): 


randIndex = randint(1, wordListSum(wordList)) 
for word, value in wordList.items(): 
randIndex -- value 
if randIndex «- 0: 
return word 


def buildWordDict(text): 
# 剔除 换行 符 和 引号 
text = text.replace("\n", " "); 
text = text.replace("\"", ""); 


# 保证 每 个 标点 符号 都 和 前 面 的 单词 在 一 起 
# 这 样 不 会 被 剔除 ,保留 在 马尔 可 夫 链 中 
punctuation 2 [',', '.', '5;',':'] 
for symbol in punctuation: 

text = text.replace(symbol, 














*symbole" "); 


words = text.split(" ") 
* tiea 


words - [word for word in words if word !- ""] 


wordDict = {} 
for i in range(1, len(words)): 
if words[i-1] not in wordDict: 
# 为 单词 新 建 一 个 词典 
wordDict[words[i-1]] = {} 
if words[i] not in wordDict[words[i-1]]: 
wordDict[words[i-1]][words[i]] = 











PED 


句子 : 


wordDict[words[i-1]][words[i]] = wordDict[words[i-1]][words[ 


return wordDict 


i]] +1 


text = str(urlopen("http://pythonscraping.com/files/inaugurationSpeech.txt") 
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.read(), 'utf-8') 
wordDict - buildWordDict(text) 


# 生成 链 长 为 106 的 马尔 可 夫 链 


Length = 100 
chain = "" 
currentWord - "I" 


for i in range(0, length): 
chain += currentWord«" " 
currentWord = retrieveRandomWord(wordDict[currentWord]) 


print(chain) 








代码 的 输出 结果 每 次 都 会 变化 ， 下 面 是 其 中 一 个 胡言 乱 语 的 结果 : 











I sincerely believe in Chief Magistrate to make all necessary sacrifices and 
oppression of the remedies which we may have occurred to me in the arrangement 
and disbursement of the democratic claims them , consolatory to have been best 
political power in fervently commending every other addition of legislation , by 
the interests which violate that the Government would compare our aboriginal 
neighbors the people to its accomplishment . The latter also susceptible of the 
Constitution not much mischief , disputes have left to betray . The maxim which 
may sometimes be an impartial and to prevent the adoption or 


那么 代码 是 怎么 实现 的 呢 ? 


buttdwordDtct 函数 把 网 上 获取 的 演讲 文本 的 字符 串 作 为 参数 ， 然 后 对 字符 串 做 一 些 清理 
和 格式 化 处 理 ， 去 掉 引 号 ， 把 其 他 标点 符号 两 端 加 上 空格 ， 这 样 就 可 以 对 每 一 个 单词 进行 
有 效 的 处 理 。 最后， 再 建立 如 下 所 示 的 一 个 二 维 字典 一 字典 里 有 字典 : 
































(word a : (word b : 2, word c : 1, word d : 1}, 
word e : (word b : 5, word d : 2},...} 





在 这 个 字典 示例 中 ,“word_a” 出 现 了 四 次 ， 有 两 次 后 面 跟 的 单词 是 “word_b”， 一 次 是 
“word_c”, 一 次 是 “word_d”。“word_e” 出 现 了 七 次 ， 有 五 次 后 面 跟 的 单词 是 “word_b”， 
两 次 是 “word_d”。 


























如 果 我 们 要 画 出 这 个 结果 的 节点 模型 ， 那 么 “word_a” 可 能 就 有 带 50% 概率 的 箭头 指向 
"word b" (四 次 中 的 两 次 )， 带 25% 概率 的 箭头 指向 “word_c"， 还 有 带 25% 概率 的 箭 > 
指向 “word_d”。 


一 旦 字典 建成 ， 不 管 你 现在 看 到 了 文章 的 哪个 词 ， 都 可 以 用 这 个 字典 作为 查询 表 来 选择 下 
一 个 节点 。 这 个 字典 的 字典 是 这 么 使 用 的 ， 如 果 我 们 现在 位 于 “word_e” 节 点 ,那么 下 一 









































注 3: 程序 处 理 文本 中 的 最 后 一 个 单词 的 下 一 个 选择 时 可 能 会 发 生 异 常 ， 因 为 这 个 单词 后 面 没有 单词 。 在 我 
们 的 例子 中 ， 最 后 一 个 单词 是 点 号 〈.)， 这 样 会 很 方便 ， 因 为 它 在 演讲 内 容 里 一 共 出 现 了 215 次 ， 所 
以 选择 下 一 个 单词 时 不 会 出 现 问 题 。 但 是 ， 在 现实 工作 中 ， 实 现 一 个 马尔 可 夫 生 成 器 时 ， 文 本 的 最 后 
一 个 单词 通常 是 需要 慎重 考虑 的 。 
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步 就 要 把 字典 (word b : 5, word d : 2) 传递 到 retrieveRandomWord 国 数 。 这 个 国 数 会 按 
照 字典 中 单词 频次 的 权重 随机 获取 一 个 单词 。 


先 确 定 一 个 随机 的 开始 词 (示例 中 用 的 是 经 常 使 用 的 “I”)， 我 们 可 以 通过 马尔 可 夫 链 随意 
地 重复 ， 生 成 我 们 需要 的 任意 长 度 的 句子 。 


维基 百科 六 度 分 割 : 终结 篇 

在 第 3 章 ， 我 们 创建 了 收集 从 凯 文 * 贝 肯 开始 的 维基 词 条 链接 的 候 虫 ， 最 后 存储 在 数据 库 
里 。 为 什么 这 里 又 把 这 个 游戏 搬出 来 ?因为 它 体现 了 一 种 从 一 个 页 面 指向 另 一 个 页 面 的 链 
接 路 径 选 择 问 题 ( 即 找 出 https://en.wikipedia.org/wiki/Kevin_Bacon 和 https://en.wikipedia. 
org/wiki/Eric Idle 链接 路 径 ) ， 这 和 从 上 面 的 马尔 可 夫 链 里 找 出 一 个 单词 到 另 一 个 单词 的 路 
径 的 问题 是 一 样 的 。 这 类 问题 被 称 为 有 向 图 (directed graph) 问题 ， 其 中 A 一 B 连通 , 并 
不 意味 着 B 一 A 同样 连通 。 单 词 “football ”后面 可 能 经 常 跟 的 是 单词 “player” ， 但 是 单 
词 “player” 后 面 却 很 少 跟着 单词 “football  。 虽 然 凯 文 ， 贝 肯 (Kevin Bacon) 的 维基 词 条 
连接 到 他 的 老家 费城 (Philadelphia) ， 但 是 费城 的 维基 百科 词 条 里 却 没 有 连接 他 的 链接 。 










































































相反 ， 原 来 的 凯 文 ， 贝 肯 六 度 分 割 游戏 是 一 个 无 向 图 (undirected graph) 问题 。 例 如 凯 
文 ， 贝 肯 和 朱 莉 娅 .罗伯茨 (Julia Roberts) 共同 演 过 电影 《 别 闻 阴 阳 界 》(Flatliners， 
1990) ， 因 此 凯 文 ， 贝 肯 词 条 通过 《 别 间 阴阳 界 》 的 维基 词 条 会 链接 到 朱 者 娅 .罗伯茨 词 
条 ， 而 朱 莉 娅 .罗伯茨 词 条 也 会 通过 《 别 冯 阴阳 界 》 的 维基 词 条 链接 到 凯 文 ， 贝 肯 词 条 ， 
两 者 的 关系 是 相互 的 〈 就 是 没有 “方向 ”性 )。 在 计算 机 科学 中 ， 无 向 图 问题 相 比 有 向 图 
问题 不 太 常 见 ， 两 者 都 属于 计算 难题 。 


虽然 解决 这 两 类 问题 和 对 应 的 多 个 分 支 问 题 的 方法 有 很 多 ， 但 是 在 寻找 有 向 图 的 最 短路 径 
引 题 中 ， 即 找 出 维基 百科 中 凯 文 ， 贝 肯 词 条 和 其 他 词 条 之 间 最 短 链 接 路 径 的 方法 中 ， 效 果 
最 好 且 最 常用 的 一 种 方法 是 广度 优先 搜索 (breadth-first search) 。 

广度 优先 搜索 算法 的 思路 是 优先 搜寻 直接 连接 到 起 始 页 的 所 有 链接 (而 不 是 找到 一 个 链接 
就 纵向 深入 搜索 )。 如 果 这 些 链 接 不 包含 目标 页 面 (你 想 要 找 的 词 条 )， 就 对 第 二 层 的 链 
接 一 一 连接 到 起 始 页 的 页 面 的 所 有 链接 一 一 进行 搜索 。 这 个 过 程 不 断 重复 ， 直 到 达到 搜索 
深度 限制 (本 例 中 使 用 的 层 数 限制 是 6 ES) 或 者 找到 目标 页 面 为 止 。 


用 第 5 章 里 获得 的 链接 数据 表 ， 实 现 一 个 完整 的 广度 优先 搜索 算法 ， 代 码 如 下 所 示 : 




















a 






































from urllib.request import urlopen 
from bs4 import BeautifulSoup 
import pymysql 


conn = pymysql.connect(host-'127.0.0.1', unix socket-'/tmp/mysql.sock', 
user-'root', passwdzNone, db-'mysql', charset-'utf8') 
cur = conn.cursor() 
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cur. 


execute("USE wikipedia") 


class SolutionFound(RuntimeError): 


def 


def 


def _ init (self, message): 


self.message - message 


getLinks(fromPageId): 
cur.execute("SELECT toPageId FROM links WHERE fromPageId = %s", (fromPageId)) 
if cur.rowcount -- 0: 
return None 
else: 
return [x[0] for x in cur.fetchall()] 


constructDict(currentPageId): 
links = getLinks(currentPageId) 
if links: 
return dict(zip(links, [([j]*len(links))) 
return (jJ 


# 链接 树 要 么 为 空 ,要 么 包含 多 个 链接 


def 


try: 


searchDepth(targetPageId, currentPageId, linkTree, depth): 
if depth -- 0: 
# 停止 递归 ,返回 结果 
return linkTree 
if not linkTree: 
linkTree = constructDict(currentPageId) 
if not linkTree: 
# 若 此 节点 页 面 无 链接 , 则 跳 过 此 节点 
return {} 
if targetPageId in linkTree.keys(): 
print("TARGET "«str(targetPageId)*" FOUND!") 
raise SolutionFound("PAGE: "«str(currentPageId)) 





for branchKey, branchValue in linkTree.items(): 
try: 
# 递归 建立 链接 树 
linkTree[branchKey] = searchDepth(targetPageId, branchKey, 
branchValue, depth-1) 





except SolutionFound as e: 
print(e.message) 
raise SolutionFound("PAGE: "«str(currentPageId)) 
return linkTree 


searchDepth(134951, 1, (), 4) 
print("No solution found") 


except SolutionFound as e: 


print(e.message) 


这 里 函数 getLinks 和 constructDict 是 辅助 函数 ， 用 来 从 数据 库 里 获取 给 定 页 面 的 链接 ， 
然后 把 链接 转换 成 字典 。 主 函数 searchDepth 会 递归 地 执行 ， 同 时 构建 和 搜索 链接 树 ， 一 


次 搜索 一 


























层 。 其 运行 规则 如 下 所 示 。 
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。 如 果 递 归 限 制 已 经 到 达 〈 即 程序 已 经 调用 过 很 多 次 ) ， 就 停止 搜索 ， 返 回 结果 。 

。 如 果 函 数 获 取 的 链接 字典 是 空 的 ， 就 对 当前 页 面 的 链接 进行 搜索 。 如 果 当 前 页 面 也 没 链 
接 ， 就 返回 空 链 接 字典 。 

。 如 有 果 当 前 页 面包 含 我 们 搜索 的 页 面 链接 ， 就 把 页 面 ID 复制 到 递归 的 栈 硕 ， 然 后 抛 出 一 
个 异常 ， 显 示 页 面 已 经 找到 。 递 归 过 程 中 的 每 个 栈 都 会 打印 当前 页 面 DD， 然 后 抛 出 异 
常 显示 页 面 已 经 找到 ， 最 终 打印 在 屏幕 上 的 就 是 一 个 完整 的 页 面 ID 路 径 列 表 。 

。 如 果 链 接 没 找到 ， 把 递归 限制 减 一 ， 然 后 调用 函数 搜索 下 一 层 链接 。 


下 面 是 凯 文 . 贝 肯 词 条 (在 数据 库 中 页 面 ID 为 1) 和 埃 里 克 … 艾 德 尔 词 条 (在 数据 库 
Aj ID 为 78520) 的 链接 路 径 : 


































































































m 
= 





























TARGET 134951 FOUND! 
PAGE: 156224 

PAGE: 155545 

PAGE: 3 

PAGE: 1 


对 应 的 链接 名 称 是 : Kevin Bacon 一 San Diego Comic Con International 一 Brian Froud 一 


Terry Jones 一 Eric Idle, 





除了 解决 “六 度 分 隔 ” 问 题 和 对 句子 中 的 一 个 词 后 面 跟 哪 个 词 问题 进行 建 模 ， 有 向 图 和 无 
向 图 还 可 以 对 网 络 数据 采集 中 的 许多 场景 进行 建 模 。 例 如 ， 一 个 网 站 与 其 他 网 站 的 链接 关 
系 是 什么 ?一 篇 学 术 论文 与 其 他 学 术 论文 之 间 的 引用 关系 如 何 ? 零售 网 站 上 哪些 产品 应 该 
捆绑 销售 ?这 个 链接 的 强度 是 什么 ”这 个 链接 是 双向 链接 (reciprocal) 吗 ? 


了 解 这 些 基础 知识 对 建 模 、 可 视 化 以 及 基于 采集 数据 进行 预测 都 非常 有 用 。 


8.3 自然 语言 工具 包 

到 目前 为 止 ， 本 章 主要 讨论 对 文本 中 所 有 单词 的 统计 分 析 。 哪 些 单词 使 用 得 最 频繁 ? 哪些 
单词 用 得 最 少 ? 一 个 单词 后 面 跟着 哪 几 个 单词 ?这 些 单词 是 如 何 组 合 在 一 起 的 ? 我们 应 该 
做 却 还 没 做 的 事情 ， 是 理解 每 个 单词 的 具体 含义 。 

























































































自然 语言 工具 包 (Natural Language Toolkit，NLTK) 就 是 这 样 一 个 Python 库 ， 用 于 识别 和 
标记 英语 文本 中 各 个 词 的 词性 (parts of speech) 。 这 个 项 目 于 2000 年 创建 ， 经 过 15 年 的 
发 展 ， 由 来 自 世 界 各 地 的 几 十 个 开发 者 共同 努力 维护 。 虽 然 它 的 功能 非常 丰富 (有 儿 本 书 
专门 介绍 NLTK) ， 但 这 一 节 只 重点 介绍 几 个 用 法 。 














8.3.1 安装 与 设置 
NLTK 模块 的 安装 方法 和 其 他 Python 模块 一 样 ， 要 么 从 NLTK 网 站 直接 下 载 安装 包 进 行 
安装 ， 要 么 用 其 他 儿 个 第 三 方 安装 器 通过 关键 词 “nltk” 安 装 。 详 细 的 安装 教程 ， 请 参考 
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NLTK 网 站 (http//www.nltk.org/install.html) 。 


模块 安装 之 后 ， 可 以 下 载 NLTK 自 带 的 文本 库 ， 这 样 你 就 可 以 非常 轻松 地 实验 NLTK 的 功 
HE. TE Python 命令 行 输入 下 面 的 命令 即 可 : 





>>> import nltk 
>>> nltk.download() 


两 行 命令 会 打开 NLTK 的 下 载 器 (图 8-2). 





| eoo " . NLTK Downloader 


Status 


All packages installed 
all-corpora All the corpora installed 
book Everything used in the NLTK Book installed 








| Download | | Refresh | 





Server Index: |http: //nltk.github.com/nltk data/ | 





Download Directory: |/Users/ryan/nltk data ] 














图 8-2. NLTK 下 载 器 可 以 让 你 浏览 和 下 载 NLTK 模块 的 包 和 文本 库 


推荐 你 安装 所 有 的 包 。 要 下 载 的 每 个 文件 都 是 非常 小 的 文本 ， 你 永远 也 不 会 知道 后 面 会 用 
到 哪 一 个 ， 而 且 任何 时 候 都 可 以 轻易 地 外 载 它们 。 


8.32 ”用 NLTK 做 统计 分 析 

NLTK 很 擅长 生成 一 些 统 计 人 信息， 包括 对 一 段 文字 的 单词 数量 、 单 词 频 率 和 单词 词性 的 统 
计 。 如 果 你 只 需要 做 一 些 简单 直接 的 计算 (比如 ， 一 段 文字 中 不 重复 单词 的 数量 ) ， 导 入 
NLTK 模块 就 太 大 材 小 用 了 一 一 它 是 一 个 非常 大 的 模块 。 但 是 ， 如 果 你 还 需要 对 文本 做 一 
些 更 有 深度 的 分 析 ， 那 么 里 面 有 许多 函数 可 以 帮 你 实现 任何 需要 的 统计 指标 。 


用 NLTK 做 统计 分 析 一 般 是 从 Text 对 象 开始 的 。Text 对 象 可 以 通过 下 面 的 方法 用 简单 的 
Python 字符 串 来 创建 : 
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from nltk import word tokenize 
from nltk import Text 


tokens - word tokenize("Here is some not very interesting text") 
text = Text(tokens) 


word, tokenize 函数 的 参数 可 以 是 任何 Python 字符 串 。 如 果 你 手边 没有 任何 长 字符 串 ， 但 


bx 


在 后 








还 想 尝 试 一 些 功 能 ， 在 NLTK 库 里 已 经 内 置 了 几 本 书 ， 可 以 用 import 函数 导入 : 


from nltk.book import * 


"AULAS : 





*** Introductory Examples for the NLTK Book *** 
Loading texti, ..., text9 and senti, ..., sent9 
Type the name of the text or sentence to view it. 
Type: 'texts()' or 'sents()' to list the materials. 
text1: Moby Dick by Herman Melville 1851 

text2: Sense and Sensibility by Jane Austen 1811 
text3: The Book of Genesis 

text4: Inaugural Address Corpus 

text5: Chat Corpus 

text6: Monty Python and the Holy Grail 

text7: Wall Street Journal 

text8: Personals Corpus 

text9: The Man Who Was Thursday by G . K . Chesterton 1908 


面 的 例子 ， 我 们 都 用 text6, "Monty Python and the Holy Grail” (一 部 1975 年 电影 的 剧本 ) 。 


文本 对 象 可 以 像 普 通 的 Python 数组 那样 操作 ， 好 像 下 文本 里 所 有 单词 的 数 


组 。 


前 


c 





用 这 个 属性 ， 你 可 以 统计 文本 中 不 重复 的 单词 ， 然 后 与 总 单词 数据 进行 比较 : 








>>> len(text6)/len(words) 
7.833333333333333 











而 的 数据 表明 剧本 中 每 个 单词 平均 被 使 用 了 八 次 。 你 还 可 以 将 文本 对 象 放 到 一 个 频率 分 











布 对 象 FreqDist 中 ， 查 看 哪些 单词 是 最 常用 的 ， 以 及 单词 的 频率 是 多 少 。 


>>> from nltk import FreqDist 

>>> fdist = FreqDist(text6) 

>>> fdist.most common(10) 

[C:', 1197), Cu 816), (1, 89), CO 730), QC", 222), CL, 3 
19), (']', 312), ('the', 299), ('I', 255), ('ARTHUR', 225)] 

>>> fdist["Grail"] 

34 


因为 这 是 一 个 剧本 ， 所 以 剧本 中 创作 的 一 些 角 色 会 显示 出 来 。 例 如 ， 全 部 大 写 的 
“ARTHUR” 频 繁 地 出 现 ， 因 为 它 会 出 现在 亚瑟王 (King Arthur) 每 一 句 台词 的 前 面 。 另 


外 ， 分 


分 号 €) 也 出 现在 每 一 行 的 开头 ， 当 作 分 隔 符 把 人 物 的 姓名 和 人 物 的 台词 分 开 。 根 据 





这 个 特征 ， 我 们 可 以 看 到 这 个 电影 剧本 一 共有 1197 名 台词 ! 
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在 上 一 章 我 们 已 经 用 过 的 2-gram 模型 ， 在 NLTK 中 称 作 bigrams (你 可 能 会 听 到 有 人 把 
3-gram 模型 叫 作 “trigrams”， 但 是 我 个 人 还 是 更 喜欢 用 n-gram 而 不 是 bigram 或 trigram ) 。 
你 可 以 用 NLTK 非常 轻松 地 创建 并 搜索 一 个 2-gram 模型 . 








>>> from nltk import bigrams 

>>> bigrams = bigrams(text6) 

>>> bigramsDist = FreqDist(bigrams) 
>>> bigramsDist[("Sir", "Robin")] 
18 


为 了 搜索 2-gram 序列 “Sir Robin ， 我 们 需要 把 它 分 解 成 一 个 数组 C'Sir", "Robin"), JH 


来 匹配 这 个 2-gram 序列 在 频率 分 布 中 的 表现 方式 。 还 有 一 个 trigrams 模块 ， 它 的 工作 方 
式 完 全 相同 。 对 于 更 一 般 的 情形 ， 你 还 可 以 导入 ngrans 模块 : 





>>> from nltk import ngrams 

>>> fourgrams = ngrams(text6, 4) 

>>> fourgramsDist = FreqDist(fourgrams) 

>>> fourgramsDist[("father", "smelt", "of", "elderberries")] 
1 


这 个 ngrams 函数 被 用 来 把 文本 对 象 分 解 成 任意 规模 的 n-gram 序列 ， 第 二 个 参数 决定 规模 


大 小 。 在 这 个 例子 中 ， 我 把 文本 分 解 成 了 4-gram。 然 后 ， 我 就 可 以 查 出 “father smelt of 
elderberries” 这 个 短语 在 剧本 中 只 出 现 了 一 次 。 








频率 分 布 、 文 本 对 象 和 n-gram 还 可 以 整合 在 一 个 循环 中 进行 迭代 。 例 如 ， 下 面 的 程序 就 是 
打印 文本 中 所 有 以 “coconut” 开 头 的 4-gram 序列 : 














from nLtk.book import * 
from nLtk import ngrams 
fourgrams = ngrams(text6, 4) 
for fourgram in fourgrams: 
if fourgram[0] == "coconut": 
print(fourgram) 


NLTK 库 设 计 了 许多 不 同 的 工具 和 对 象 来 组 织 、 统 计 、 排 序 和 度量 大 段 文字 的 含义 。 尽 


管 我 们 只 是 了 解 了 NLTK 函数 用 法 的 皮毛 ， 但 是 大 多 数 工具 都 设计 得 非常 好 ， 而 且 熟 悉 
Python 的 人 很 容易 操作 它们 。 











8.3.3 用 NLTK 做 词性 分 析 
到 现在 为 止 ， 我 们 只 是 基于 拼写 方式 对 比 和 分 类 遇 到 的 所 有 单词 ， 并 没有 区 分 同义词 或 


语 境 。 























虽然 有 人 可 能 会 认为 同义词 不 处 理 也 基本 没什么 问题 ， 但 是 如 果 你 看 到 了 它们 使 用 的 频 
率 ， 可 能 会 吓 一 跳 。 大 多 数 以 英语 为 母语 的 人 可 能 不 会 注意 到 两 个 词 互 为 同义词 ， 也 很 少 
会 性 虑 同一 个 词 在 不 同 的 语 境 中 可 能 会 导致 意思 混乱 。 
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“He was objective in achieving his objective of writing an objective philosophy, primarily using 
verbs in the objective case”( 在 实现 他 写作 一 本 客观 哲学 书 的 目标 时 ， 他 是 客观 的 ， 因 为 他 


在 描述 客观 情况 时 主要 用 动词 ) 这 名 话 容易 被 人 类 理解 ， 但 是 网 络 疏 虫 可 能 会 认为 是 同样 








的 单词 (objective) 被 用 了 四 次 ， 进 而 简单 地 忽略 这 四 个 单词 各 自 不 同 的 含义 。 











除了 理 清 句子 中 各 个 词 的 词性 ， 还 要 区 分 出 某 句 话 中 一 个 单词 的 用 法 。 例 如 ， 你 可 能 会 
需要 查找 一 些 普通 英文 单词 组 成 的 公司 名 称 ， 或 者 分 析 某 个 人 对 一 个 公司 的 评价 ， 像 


“ ACME Products is good” f 











的 是 “good ， 而 另 一 名 话 用 的 是 “bad 。 


H “ACME Products is not bad” 意 思 是 一 样 的 ， 即 使 一 句 话 里 用 



































Penn Treebank 语义 标记 

NLTK 默认 使 用 的 语 料 标记 系统 是 由 美国 宾夕法尼亚 大 学 大 学 开发 的 颇 受 欢迎 的 Penn 
Treebank 项 目 (http//www.cis.upenn.edu/-treebank/) 中 的 语 料 标记 部 分 。 虽 然 有 些 标 
记 意 思 明 确 (比如 ，CC 就 是 并 列 连接 词 ，coordinating conjunction) ， 有 些 标记 却 比 较 
模糊 (比如 ，RP 是 一 个 小 品 词 ，particle) 。 下 面 是 语义 标记 的 对 照 表 。 
人 | 

CC 并 列 连 接 词 (Coordinating conjunction) 

CD 基数 (Cardinal number) 

DT 限定 词 (Determiner) 

EX 表示 存在 性 的 “there”(Existential "there" ) 

FW 外 来 语 (Foreign word) 

IN 介词 ， 从 属 连词 (Preposition, subordinating conjunction) 

JJ 形容 词 (Adjective) 

JJR 形容 词 ， 比 较 级 (Adjective, comparative) 

JJS 形容 词 ， 最 高 级 (Adjective, superlative) 

LS 列表 项 标记 符 (List item marker) 

MD 情态 动词 (Modal) 

NN 名 词 ， 单数 或 不 可 数 (Noun, singular or mass) 

NNS 名 词 ， 复数 (Noun, plural) 

NNP EH i, H% (Proper noun, singular) 

NNPS 专 有 名 词 ， 复 数 (Proper noun, plural) 

PDT 前 置 限定 词 (Predeterminer) 

POS 名 词 所 有 格 s 结尾 (Possessive ending) 

PRP 人 称 代词 (Personal pronoun) 

PRP$ 物 主 代 词 (Possessive pronoun) 

RB 副词 (Adverb) 

RBR 副词 ， 比 较 级 (Adverb, comparative) 

RBS 副词 ， 最 高 级 (Adverb, superlative) 
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( 续 ) 
缩 5 全 K 
RP 小 品 词 (Particle) 
SYM 符号 (Symbol) 
TO AMT “to” (“to”) 
UH 感叹 词 
VB 动词 ， 一 般 形 式 (Verb, base form) 
VBD 动词 ， 过 去 时 (Verb, past tense) 
VBG 动词 ， 动 名 词 或 现在 分 词 (Verb, gerund or present participle) 
VBN 动词 ， 过 去 分 词 (Verb, past participle) 
VBP 动词 ， 非 第 三 人 称 单数 (Verb, non-third person singular present) 
VBZ 动词 ， 第 三 人 称 单数 (Verb, third person singular present) 
WDT Wh- 限定 词 (Wh-determiner) 
WP Wh- 代词 (Wh-pronoun) 
WP$ Wh- 物 主 代词 (Possessive wh-pronoun) 
WRB Wh- 副词 (Wh-adverb) 




















除了 度量 语言 ，NLTK 还 可 以 用 它 的 超级 大 字典 分 析 文本 内 容 ， 帮 助人 们 寻找 单词 的 含义 。 
NLTK 的 一 个 基本 功能 是 识别 句子 中 各 个 词 的 词性 : 








>>> from nltk.book import * 
>>> from nltk import word tokenize 
>>> text = word tokenize("Strange women lying in ponds distributing swords is no 
basis for a system of government. Supreme executive power derives from a mandate 
from the masses, not from some farcical aquatic ceremony.") 
>>> from nltk import pos tag 
>>> pos tag(text) 
[('Strange', 'NNP'), ('women', 'NNS'), ('lying', 'VBG'), ('in', 'IN') 
, ('ponds', 'NNS'), ('distributing', 'VBG'), ('swords', 'NNS'), ('is' 
, 'VBZ'), ('no', 'DT'), ('basis', 'NN'), ('for', 'IN'), ('a', 'DT'), 
('system', 'NN'), ('of', 'IN'), ('government', 'NN'), ('.', '.'), ('S 
upreme', 'NNP'), ('executive', 'NN'), ('power', 'NN'), ('derives', 'N 
NS'), ('from', 'IN'), ('a', 'DT'), ('mandate', 'NN'), ('from', 'IN'), 
('the', 'DT'), ('masses', 'NNS'), (',', ','), ('not', 'RB'), ('from' 
; IN'), ('some', 'DT'), ('farcical', 'JJ'), ('aquatic', 'JJ'), ('cer 
emony', 'NN'), ('.', '.')] 


每 个 单词 被 分 开放 在 一 个 元 组 中 ， 一 边 是 单词 ， 一 边 是 NLTK 识别 的 词性 标记 (每 个 词性 
标记 的 具体 含义 请 参考 前 面 的 Penn Treebank 标记 表 ) 。 虽然 这 看 起 来 像 是 非常 简单 直接 的 
查询 ， 但 是 要 正确 地 完成 任务 其 实 很 复杂 度 ， 用 下 面 的 例子 看 更 直观 : 























>>> text = word_tokenize("The dust was thick so he had to dust") 


>>> pos tag(text) 
[('The', 'DT'), ('dust', 'NN'), ('was', 'VBD'), ('thick', 'JJ'), ('so 
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', 'RB'), ('he', 'PRP'), ('had', 'VBD'), ('to', 'TO'), ('dust', 'VB') 

] 
需要 广 意 的 是 ,， “dust” 在 这 句 话 里 出 现 过 两 次 : 一 次 是 名 词 ， 而 另 一 次 是 动词 。NLTK 
可 以 基于 句子 的 内 容 正 确 地 识别 出 对 应 的 用 法 。NLTK 用 英语 的 上 下 文 无 关 文 法 (context- 
free grammar) 识别 词性 。 上 下 文 无 关 文 法 基本 上 可 以 看 成 一 个 规则 集合 ， 用 一 个 有 序 的 
列表 确定 一 个 词 后 面 可 以 跟 哪 些 词 。NLTK 的 上 下 文 无关 文 法 确定 的 是 一 个 词性 后 面 可 以 
跟 哪 些 词 性 。 无 论 什么 时 候 ， 只 要 遇 到 像 “dust” 这 样 一 个 含义 不 明确 的 单词 ，NLTK 都 
会 用 上 下 文 无 关 文 法 的 规则 来 判断 ， 然 后 确定 一 个 合适 的 词性 。 





























机 器 学 习 和 机 器 训练 


你 也 可 以 对 NLTK 进行 训练 ， 创 建 一 个 全 新 的 上 下 文 无 关 文 法 规则 ， 比 如 ， 一 种 外 语 
的 上 下 文 无 关 文 法 规则 。 如 果 你 用 Penn Treebank 词性 标记 手工 完成 了 那 种 语言 的 大 部 
分 文本 的 语义 标记 ， 那 么 你 就 可 以 把 结果 传 给 NLTK， 然 后 训练 它 对 其 他 未 标记 的 文 
本 进行 语义 标记 。 在 任何 一 个 机 器 学 习 案 例 中 ， 机 器 训练 都 是 不 可 或 缺 的 部 分 ， 这 一 
点 我 们 将 在 第 11 章 训 练 爬 虫 识别 验证 码 (CAPTCHA) 时 介绍 。 











那么 ， 知 道 某 段 文 字 中 一 个 词 是 动词 还 是 名 词 有 什么 用 呢 ? 在 计算 机 科学 研究 室 里 做 研究 
可 能 非常 好 用 ， 但 是 它 对 网 络 数据 采集 有 什么 用 呢 ? 


网 络 数据 采集 经 常 需 要 处 理 搜索 的 问题 。 你 在 采集 了 一 个 网 站 的 文字 之 后 ， 可 能 想 从 文字 
里 面 搜索 “google” 这 个 词 ， 但 你 要 的 是 作为 动词 的 google， 不 要 作为 专用 名 词 的 Google, 
或 者 你 就 想 查 找 Google 公司 的 名 称 Google， 但 是 不 想 通 过 首 字母 大 写 来 找 出 答案 (人 们 
可 能 忘记 将 首 字母 大 写 ， 直 接 写 成 google) 。 那 么 这 时 国 数 pos tag 就 很 管用 了 : 





























from nltk import word tokenize, sent tokenize, pos tag 

sentences - sent tokenize("Google is one of the best companies in the world. 
I constantly google myself to see what I'm up to.") 

nouns = ['NN', 'NNS', 'NNP', 'NNPS'] 


for sentence in sentences: 
if "google" in sentence.lower(): 
taggedWords - pos tag(word tokenize(sentence)) 
for word in taggleWords: 
if word[0].lower() == "google" and word[1] in nouns: 
print(sentence) 


这 段 代 码 只 会 打印 包含 单词 “google”( 或 “Google”) 作为 名 词 而 非 动 词 的 句子 。 当 然 ， 


你 也 可 以 更 明确 地 要 求 只 打印 标记 是 “NNP” (专用 名 词 ) 的 “Google”， 但 是 NLTK 有 时 
也 会 判断 错误 ， 所 以 最 好 还 是 给 自己 留 一 些 余地 ， 具 体 情况 由 项 目 而 定 。 





自然 语言 中 的 许多 歧义 问题 都 可 以 用 NLTK 的 pos tag 解决 。 不 只 是 搜索 目标 单词 或 短 
语 ， 而 是 搜索 带 标 记 的 目标 单词 或 短语 ， 这 样 可 以 大 大 提高 疏 虫 搜索 的 准确 率 和 效率 。 

















-A 
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8.4 其 他 资源 

通过 机 器 处 理 、 分 析 和 理解 自然 语言 是 计算 机 科学 中 最 难 的 任务 之 一 ， 在 这 个 领域 中 有 数 
不 请 的 专著 和 学 术 论 文 。 我 希望 这 里 介绍 的 一 点 儿 内 容 可 以 让 你 的 视野 超越 传统 的 网 络 数 
据 采 集 ， 或 至 少 在 从 事 需 要 进行 自然 语言 分 析 的 项 目 时 清楚 应 该 从 哪儿 下 手 。 






































有 许多 非常 优秀 的 学 习 资 源 专门 介绍 自然 语言 处 理 和 Python 的 NLTK。 尤 其 是 Steven 
Bird, Ewan Klein fll Edward Loper 合 著 的 Natural Language Processing with Python (http:// 
shop.oreilly.com/product/9780596516499.do) 对 这 个 主题 进行 了 详细 的 分 析 和 介绍 。 


另外 ，James Pustejovsky 和 Amber Stubbs 合 著 的 Natural Language Annotation for Machine 
Learning (http://shop.oreilly.com/product/0636920020578.do)， 为 自然 语言 处 理 提 供 了 更 深 
刻 的 理论 指导 。 学 习 该 书 需 要 有 Python 基础 ， 书 中 介绍 的 主题 都 可 以 用 Python 的 NLTK 
完美 地 实现 。 
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第 9 章 


穿越 网 页 表单 与 登录 窗口 进行 采 





当 你 真正 迈 出 网 络 数据 采集 基础 之 门 的 时 候 ， 遇 到 的 第 一 个 问题 很 可 能 是 :“ 我 怎么 获取 
登录 窗口 背后 的 信息 呢 ?” 今 天 ， 网 络 正 在 朝 着 页 面 交 互 、 社 交 媒 体 、 用 户 产 生 内 容 的 趋 
势 不 断 地 演进 。 表 单 和 登录 窗口 是 许多 网 站 中 不 可 或 缺 的 组 成 部 分 。 不 过 ， 它 们 还 是 比较 
容易 处 理 的 。 


到 目前 为 止 ， 我们 示例 中 的 网 络 候 虫 在 和 大 多 数 网 站 的 服务 器 进行 数据 交互 时 ， 都 是 用 
HTTP 协议 的 GET 方法 去 请 求 信息 。 这 一 章 ， 我 们 将 重点 介绍 POST 方法 ， 即 把 信息 推送 给 
网 络 服务 器 进行 存储 和 分 析 。 


页 面 表单 基本 上 可 以 看 成 是 一 种 用 户 提交 POST 请 求 的 方式 ， 且 这 种 请 求 方式 是 服务 器 能 够 
理解 和 使 用 的 。 就 像 网 站 的 URL 链接 可 以 帮助 用 户 发 送 GET 请 求 一 样 ，HTML 表单 可 以 
帮助 用 户 发 出 POST 请 求 。 当 然 ， 我 们 也 可 以 用 一 点 儿 代码 来 自己 创建 这 些 请 求 ， 然 后 通过 
网 络 爬 虫 把 它们 提交 给 服务 器 。 
























































9.1 Python Requests 库 

虽然 用 Python 的 标准 库 也 可 以 控制 网 页 表单 ， 但 是 有 时 用 一 点 儿 语 法 糖 可 以 让 生活 更 甜 
蜜 。 当 你 想 做 比 urLLib 库 能 够 实现 的 基本 GET 请 求 更 多 的 事情 时 ， 可 以 看 看 Python 标准 
库 之 外 的 第 三 方 库 。 

















Requests JÆ (http://www.python-requests.org/) 就 是 这 样 一 个 擅长 处 理 那 些 复杂 的 HTTP 请 
求 、cookie、header (响应 头 和 请 求 头 ) 等 内 容 的 Python 第 三 方 库 。 
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下 面 是 Requests 的 创建 者 Kenneth Reitz 对 Python 标准 库 工 具 的 评价 。 














Python 的 标准 库 urltib2 为 你 提供 了 大 多 数 HTTP 功能 ， 但 是 它 的 API 非常 差劲 。 这 是 
因为 它 是 经 过 许多 年 一 步 步 建立 起 来 的 一 一 不 同时 期 要 面 对 的 是 不 同 的 网 络 环境 。 于 是 
为 了 完成 最 简单 的 任务 ， 它 需要 耗费 大 量 的 工作 (甚至 要 重 写 整个 方法 )。 




















事情 不 应 该 这 样 复 杂 ， 更 不 应 该 发 生 在 Python 里 。 

















和 任何 Python 第 三 方 库 一 样 ，Requests 库 也 可 以 用 其 他 第 三 方 Python 库 管理 器 安装 ， 比 
如 pip， 或 者 直接 下 载 源 代码 (https://github.com/kennethreitz/requests/tarball/master) 安装 。 


9.2 提交 一 个 基本 表单 


大 多 数 网 页 表单 都 是 由 一 些 HTML 字段 、 一 个 提交 按钮 、 一 个 在 表单 处 理 完 之 后 跳 转 的 
“执行 结果 ”( 表 单 属 性 action 的 值 ) 页 面 构成 。 虽 然 这 些 HTML 字段 通常 由 文字 内 容 构 
成 ， 但 是 也 可 以 实现 文件 上 传 或 其 他 非 文 字 内 容 。 





























因为 大 多 数 主流 网 站 都 会 在 它们 的 robots.txt 文件 里 注 明 禁止 仆 虫 接 入 登录 表单 (附录 C 
介绍 了 采集 这 类 表单 的 相关 法 律 责任 )， 所 以 为 了 安全 起 见 ， 我 在 网 站 里 放 入 了 一 组 不 
同类 型 的 表单 和 登录 内 容 ， 这 样 你 就 可 以 用 网 络 爬 虫 采 集 了 。 最 简单 的 表单 位 于 http:/ 
pythonscraping.com/pages/files/form.html , 

















这 个 表单 的 源 代码 是 : 





«form method="post" action="processing.php"> 

First name: <input type="text" name="firstname"><br> 
Last name: <input type="text" name="lastname"><br> 
<input type="submit" value="Submit"> 

</form> 


这 里 有 几 点 需要 注意 一 下 : 首先 ， 两 个 输入 字段 的 名 称 是 firstname 和 lastname, 3X — 4E 
常 重 要 。 字 段 的 名 称 决 定 了 表单 被 确认 后 要 被 传送 到 服务 器 上 的 变量 名 称 。 如 果 你 想 模 拟 
表单 提交 数据 的 行为 ， 你 就 需要 保证 你 的 变量 名 称 与 字段 名 称 是 一 一 对 应 的 。 


还 需要 注意 表单 的 真实 行为 其 实 发 生 在 processing.php (绝对 路 径 是 http://pythonscraping. 
com/files/processing.php) 。 表 单 的 任何 POST 请 求 其 实 都 发 生 在 这 个 页 面 上 ， 并 非 表 单 本 身 
所 在 的 页 面 。 切 记 : HTML 表单 的 目的 ， 只 是 帮助 网 站 的 访问 者 发 送 格式 合理 的 请 求 ， 向 
服务 器 请 求 没有 出 现 的 页 面 。 除 非 你 要 对 请 求 的 设计 样式 进行 研究 ， 否 则 不 需要 花 太 多 时 
间 在 表单 所 在 的 页 面 上 。 


用 Requests 库 提交 表单 只 用 四 行 代码 就 可 以 实现 ， 包 括 导 入 库 文件 和 打印 内 容 的 语句 (是 
的 ， 就 是 这 么 简单 ) : 


















































import requests 
params = ('firstname': 'Ryan', 'lastname': 'Mitchell'] 


r = requests.post("http://pythonscraping.com/files/processing.php", data-params) 
print(r.text) 


表单 被 提交 之 后 ， 程 序 应 该 会 返回 执行 页 面 的 源 代码 ， 包 括 这 行内 容 : 








Hello there, Ryan Mitchell! 




















这 个 程序 还 可 以 用 来 处 理 许多 网 站 的 简单 表单 。 比 如 O'Reilly Media 新 闻 订 阅 页 面 的 表单 
源 代码 如 下 所 示 : 


«form action-"http://post.oreilly.com/client/o/oreilly/forms/ 
quicksignup.cgi" id-"example form2" method-"POST"s 
«input name-"client token" type="hidden" value-"oreilly" /> 
«input name-"subscribe" type="hidden" value="optin" /> 
«input name-"success url" type="hidden" value-"http://oreilly.com/store/ 
newsletter-thankyou.html" /» 
«input name-"error url" type="hidden" value-"http://oreilly.com/store/ 
newsletter-signup-error.html" /> 
«input name-"topic or dod" type="hidden" valuez"1" /> 
«input name-"source" type="hidden" valuez"orm-home-ti-dotd" /> 
«fieldset» 
«input class-"email address long" maxlengthz"200" name= 
"email addr" sizez"25" type="text" value= 
"Enter your email here" /» 
«button alt-"Join" class-'"skinny" name-z"submit" onclick- 
"return addClickTracking('orm','ebook','rightrail','dod' 
);" value-"submit"»Join«/button» 
«[fieldset» 
</form> 

















虽然 第 一 次 看 这 些 会 觉得 已 怖 ， 但 是 大 多 数 情况 下 〈 后 面 我 们 会 介绍 异常 ) 你 只 需要 关注 








。 你 想 提交 数据 的 字段 名 称 〈 在 这 个 例子 中 是 email addr) 
。 表单 的 action 属性 ， 也 就 是 表单 提交 后 网 站 会 显示 的 页 面 ( 在 这 个 例子 中 是 http://post. 


oreilly.com/client/o/oreilly/forms/quicksignup.cgi) 


























把 对 应 的 信息 增加 到 请 求 信息 中 ， 运 行 代码 即 可 : 


import requests 

params = {'email_addr': 'ryan.e.mitchell@gmail.com'} 

r = requests.post("http://post.oreilly.com/client/o/oreilly/forms/ 
quicksignup.cgi", data=params) 

print(r.text) 


在 这 个 示例 中 ， 你 真正 加 入 O'Reilly 的 邮件 列表 之 前 ， 还 要 在 网 站 上 填写 另 一 个 表单 ， 同 
样 的 代码 也 可 以 应 用 到 需要 填写 的 新 表单 上 。 不 过 ， 如 果 你 自己 在 家 做 ,希望 你 慎 用 这 些 
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知识 ， 不 要 给 O'Reilly 出 版 社 提交 无 效 的 注册 。 


9.3 ” 单 选 按 钮 、 复 选 框 和 其 他 输入 


显然 ， 并 非 所 有 的 网 页 表单 都 只 是 一 堆 文本 字段 和 一 个 提交 按钮 。HTML 标准 里 提供 了 大 
量 可 用 的 表单 字段 : 单 选 按钮 、 复 选 框 和 下 拉 选 框 等 。 在 HTML5 里 面 ， 还 有 其 他 的 控件 ， 
像 滚 动 条 (范围 输入 字段 )、 邮 箱 、 日 期 等 。 自 定义 的 JavaScript 字段 可 谓 无 所 不 能 ， 可 以 
实现 取 色 器 (colorpicker) 、 日 历 以 及 开发 者 能 想到 的 任何 功能 。 


无 论 表 单 的 字段 看 起 来 多 么 复杂 ， 仍 然 只 有 两 件 事 是 需要 关 广 的 : 字段 名 称 和 值 。 字 段 名 
称 可 以 通过 查看 源 代 码 寻 找 name 属性 轻易 获得 。 而 字段 的 值 有 时 会 比较 复杂 ， 有 可 能 是 在 
表单 提交 之 前 通过 JavaScript 生成 的 。 取 色 器 就 是 一 个 比较 奇怪 的 表单 字段 ， 它 可 能 会 用 
类 似 #F03030 这 样 的 值 。 






































如 果 你 不 确定 一 个 输入 字段 值 的 数据 格式 ， 有 一 些 工具 可 以 跟踪 浏览 器 正在 通过 网 站 发 出 
或 接受 的 GET 和 POST 请 求 的 内 容 。 之 前 提 到 过 ， 跟 踪 GET 请 求 效果 最 好 也 最 直接 的 手段 就 
是 看 网 站 的 URL 链接 。 如 果 URL 链接 像 这 样 : 




















http://domainname.com?thing1=foo&thing2=bar 
你 明白 这 个 请 求 就 是 下 面 这 种 表单 : 
«form method-"GET" action-"someProcessor.php"» 
«input type-"someCrazyInputType" name-"thingi" value-"foo" /> 
«input type-"anotherCrazyInputType" namez"thing2" value-z"bar" /> 


«input type="submit" value-"Submit" /> 
</form> 


对 应 的 Python 参数 就 是 : 
('thingi':'foo', 'thing2':'bar'} 


具体 内 容 如 图 9-1 所 示 。 



































€ > Q fi [)localhost:8888/someProcessor.php 





foo | [bar | Submit | 





Q [] Elements |Network| Sources Timeline Profiles Resources Audits Console EditThisCookie 





è © Y :- (Preserve log O Disable cache 

Name x 

Path | Headers Preview Response Timing 

z> someProcessor.php Remote Address: [::1]:8888 

= Request URL: http://localhost:8888/someProcessor.php 


Request Method: POST 
Status Code: ® 200 OK 


v Form Data view source view URL encoded 
thingl: foo 
thing2: bar 


v Response Headers view source 
Connection: Keep-Alive 
Content-Length: 223 
Content-Tvnpe: text/html 











9-1; 表单 字段 值 如 方 框 所 示 , 其 中 POST 请 求 参数 “thing1” 和 "thing2" 对 应 的 值 是 “foo 30 "bar" 


如 果 你 遇 到 了 一 个 看 着 比较 复杂 的 POST 表单 ， 并 且 想 查看 浏览 器 向 服务 器 传递 了 哪些 参 
数 ， 最 简单 的 方法 就 是 用 Chrome 浏览 器 的 审查 元 素 (inspector) 或 开发 者 工具 查看 。 


Chrome 浏览 器 的 开发 者 工具 可 以 在 菜单 中 通过 更 多 工具 一 开发 者 工具 打开 (快捷 键 F12) 。 
它 提供 了 浏览 器 与 网 站 交互 时 产生 的 所 有 请 求 细 市 ， 是 一 种 查看 请 求 参 数 的 好 方法 。 


9.4 ”提交 文件 和 图 像 


虽然 上 传 文件 在 网 络 上 很 普遍 ， 但 是 对 于 网 络 数据 采集 其 实 不 太 常 用 。 但 是 ， 如 果 你 想 为 
自己 网 站 的 文件 上 传 功能 写 一 个 测试 实例 ， 也 是 可 以 实现 的 。 不 管 怎么 说 ， 和 掌握 工作 原理 
总 是 有 用 的 。 



































在 http://pythonscraping/files/form2.html 有 一 个 文件 上 传 表单 ， 页 面 上 表单 的 源 代码 如 下 
所 示 : 











<form action="processing2.php" method="post" enctype="multipart/form-data"> 
Submit a jpg, png, or gif: <input type="file" name="image"><br> 
«input type-"submit" value-"Upload File"> 

</form> 





文件 上 传 表单 除了 «inputs 标签 里 有 一 个 type 属性 是 册 e， 看 起 来 和 之 前 看 到 的 文字 字段 
的 表单 没什么 两 样 。 其 实 ，Python Requests 库 对 这 种 表单 的 处 理 方式 也 和 之 前 的 非常 相似 : 
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import requests 


files = ('uploadFile': open('../files/Python-logo.png', 'rb')) 

r = requests.post("http://pythonscraping.com/pages/processing2.php", 
files-files) 

print(r.text) 


需要 注意 ， 这 里 提交 给 表单 字段 uploadFile 的 值 不 是 一 个 简单 的 字符 串 了 ， 而 是 一 个 用 


open 函数 打开 的 Python 文件 对 象 。 在 这 个 例子 中 ， 我 提交 了 一 个 保存 在 我 电脑 上 的 图 像 
文件 ， 文 件 路 径 是 相对 这 个 Python 程序 所 在 位 置 的 ../files/Python-logo.png. 























没 错 ， 就 是 这 么 简单 ! 


9.5 ”处理 登录 和 cookie 

到 此 为 止 ， 我 们 介绍 过 的 大 多 数 表 单 都 允许 你 向 网 站 提交 信息 ， 或 者 让 你 在 提交 表单 后 立 
即 看 到 想 要 的 页 面 信 息 。 那 么 ， 这 些 表 单 和 登录 表单 ( 当 你 浏览 网 站 时 让 你 保持 “已 登 
K RE) 有 什么 不 同 ? 


























大 多 数 新 式 的 网 站 都 用 cookie 跟踪 用 户 是 否 已 登录 的 状态 信息 。 一 旦 网 站 验证 了 你 的 登录 
权证 ， 它 就 会 将 它们 保存 在 你 的 浏览 器 的 cookie 中 ， 里 面 通常 包含 一 个 服务 器 生成 的 令 
有 牌 、 登 录 有 效 时 限 和 状态 跟踪 信息 。 网 站 会 把 这 个 cookie 当 作 信 息 验 证 的 证 据 ， 在 你 浏览 
网 站 的 每 个 页 面 时 出 示 给 服务 器 。 在 20 世纪 90 年 代 中 期 广泛 使 用 cookie 之 前 ， 保 证 用 户 
安全 验证 并 跟踪 用 户 是 网 站 上 的 一 大 问题 。 





























虽然 cookie 为 网 络 开发 者 解决 了 大 问题 ， 但 同时 却 为 网 络 爬 虫 带 来 了 大 问题 。 你 可 以 一 整 
只 提交 一 次 登录 表单 ， 但 是 如 果 你 没有 一 直 关 注 表 单 后 来 回 传 给 你 的 那个 cookie， 那 么 
一 段 时 间 以 后 再 次 访问 新 页 面 时 ， 你 的 登录 状态 就 会 丢失 ， 需 要 重新 登录 。 








我 在 http://pythonscraping.com/pages/cookies/login.html 建 了 一 个 简单 的 登录 表单 〈 用 户 名 可 
以 是 任意 值 ， 但 是 密码 必须 是 “password” )。 




















这 个 表单 在 欢迎 页 面 (http://pythonscraping.com/pages/cookies/welcome.php) 处 理 ， 里 面包 
含 一 个 简介 页 面 : http://pythonscraping.com/pages/cookies/profile.php。 























如 果 在 登录 网 站 之 前 你 想 进 入 欢迎 页 面 或 者 简介 页 面 ， 会 看 到 一 个 错误 信息 和 访问 前 请 先 
登录 的 指令 。 在 简介 页 面 中 ， 网 站 会 检测 浏览 器 的 cookie， 看 它 有 没有 页 面 已 登录 的 设置 
信息 。 


























用 Requests 库 跟踪 cookie 同样 很 简单 ; 





import requests 


params = ('username': 'Ryan', 'password': 'password') 
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r = requests.post("http://pythonscraping.com/pages/cookies/welcome.php", params) 

print("Cookie is set to:") 

print(r.cookies.get dict()) 

print("----------- M) 

print("Going to profile page...") 

r = requests.get("http://pythonscraping.com/pages/cookies/profile.php", 
cookies-r.cookies) 

print(r.text) 


这 里 我 向 欢迎 页 面 发 送 了 一 个 登录 参数 ， 它 的 作用 就 像 登 录 表单 的 处 理 器 。 然 后 我 从 请 求 
结果 中 获取 cookie， 打 印 登 录 状 态 的 验证 结果 ， 然 后 再 通过 cookies 参数 把 cookie 发 送 到 
简介 页 夯 




















o 








m 


对 简单 的 访问 这 样 处 理 没 有 问题 ,但 是 如 果 你 面 对 的 网 站 比较 复杂 ， 它 经 常 瞳 自 调整 
cookie， 或 者 如 果 你 从 一 开始 就 完全 不 想 要 用 cookie， 该 怎么 处 理 呢 ? Requests 库 的 
session 函数 可 以 完美 地 解决 这 些 问 题 : 























import requests 
session = requests.Session() 


params = ('username': 'username', 'password': 'password') 

S = session.post("http://pythonscraping.com/pages/cookies/welcome.php", params) 
print("Cookie is set to:") 

print(s.cookies.get dict()) 

print("----------- Wh) 

print("Going to profile page...") 

S = session.get("http://pythonscraping.com/pages/cookies/profile.php") 
print(s.text) 


在 这 个 例子 中 ， 会 话 (session) 对 象 (调用 requests.Session() 获取 ) 会 持续 跟踪 会 话 信 


息 ， 像 cookie、header， 甚 至 包括 运行 HTTP 协议 的 信息 ， 比 如 HTTPAdapter (为 HTTP 
和 HTTPS 的 链接 会 话 提供 统一 接口 )。 














Requests 是 一 个 非常 给 力 的 库 ， 程 序 员 完 全 不 用 费 脑子 ， 也 不 用 写 代 码 ， 可 能 只 逊色 于 
Selenium. (第 10 章 将 会 介绍 ) 。 虽 然 写 网 络 爬 虫 的 时 候 ， 你 可 能 想 放手 让 Requests #4 B 
己 做 所 有 的 事情 ， 但 是 持续 关注 cookie 的 状态 ， 掌 握 它 们 可 以 控制 的 范围 是 非常 重要 的 。 
这 样 可 以 避免 痛苦 地 调试 和 追寻 网 站 行为 异常 ， 节 省 很 多 时 间 。 























HTTP 基 本 接 入 认证 

在 发 明 cookie 之 前 ， 处 理 网 站 登录 最 常用 的 方法 就 是 用 HTTP 基本 接 入 认证 (HTTP basic 
access authentication)。 有 时 还 能 见 到 它们 ， 尤 其 是 在 一 些 安全 性 较 高 的 网 站 或 公司 网 站 ， 
以 及 一 些 API 的 使 用 上 。 我 在 http://pythonscraping.com/pages/auth/login.php 用 这 种 认证 方 
法 创建 了 一 个 页 面 (图 9-2)。 





















































Authentication Required 


The server http:/ /pythonscraping.com:80 requires a 
e username and password. The server says: My Realm. E 


User Name: | 


Password: 








Cancel Log In 











ALI. aba À ibas Pada Coa 








69-2: 基本 接 入 认证 页 面 ， 用 户 必须 通过 用 户 名 和 密码 才能 登录 
和 前 面 的 例子 一 样 ， 你 可 以 用 任意 用 户 名 ， 但 是 密码 必须 是 “password , 


Requests 库 有 一 个 auth 模块 专门 用 来 处 理 HTTP 认证 : 





import requests 
from requests.auth import AuthBase 
from requests.auth import HTTPBasicAuth 


auth - HTTPBasicAuth('ryan', 'password') 

r = requests.post(url-"http://pythonscraping.com/pages/auth/login.php", auth- 
auth) 

print(r.text) 


虽然 这 看 着 像 是 一 个 普通 的 PosT 请 求 ， 但 是 有 一 个 HTTPBasicAuth 对 象 作为 auth 参数 传 
弟 到 请 求 中 。 显 示 的 结果 将 是 用 户 名 和 密码 验证 成 功 的 页 面 (如果 验 证 失败 ， 就 是 一 个 拒 
绝 接 入 页 面 )。 


9.6 ”其 他 表单 问题 


表单 是 网 络 恶意 机 器 人 (malicious bots) 酷爱 的 网 站 切入 点 。 你 当然 不 希望 机 器 人 创建 垃 
圾 账号 ， 占 用 昂贵 的 服务 器 资源 ， 或 者 在 博客 上 提交 垃圾 评论 。 因 此 ， 新 式 的 网 站 经 常 在 
HTML 中 使 用 很 多 安全 措施 ， 让 表单 不 能 被 快速 穿越 。 


关于 验证 码 (CAPTCHA) 的 作用 ， 请 查看 第 11 章 内 容 ， 里 面 介绍 了 Python 的 图 像 处 理 
和 文本 识别 方法 。 









































如 有 果 你 在 提交 表单 的 时 候 遇 到 了 一 个 莫名 其 妙 的 错误 ， 或 者 服务 器 一 直 以 陌生 的 理由 拒绝 
你 ， 请 查看 第 12 ENR, EMN TARE (honey pot)、 隐 含 字段 (hidden field) ， 以 及 其 
他 保护 网 页 表单 的 安全 措施 。 






































第 10 章 
采集 JavaScript 





客户 端 脚 本 语言 是 运行 在 浏览 器 而 非 服 务 器 上 的 语言 。 客 户 端 语言 成 功 的 前 提 是 浏览 器 拥 
有 正确 地 解释 和 执行 这 类 语言 的 能 力 ( 这 也 是 在 浏览 器 上 禁止 JavaScript 非常 容易 的 原因 )。 








在 一 定 程度 上 ， 由 于 很 难 让 所 有 浏览 器 开发 商都 认可 同一 个 标准 ， 所 以 客户 端 语言 比 服务 
器 端 语言 要 少 很 多 。 不 过 这 在 网 络 数据 采集 的 时 候 是 件 好 事 : 要 处 理 的 语言 越 少 越 好 。 


通常 ， 你 在 网 上 遇 到 的 客户 端 语 言 只 有 两 种 : ActionScript (开发 Flash 应 用 的 语言 ) 和 
JavaScript。 今 天 ActionScript 的 使 用 率 比 10 年 前 低 很 多 ， 经 常用 于 流 媒体 文件 播放 ， 用 作 
在 线 游戏 平台 ,或 者 是 网 站 上 那些 没 人 想 看 更 没 人 点 击 的 “介绍 ”页 面 。 总 之 ， 采 和 集 Flash 
页 面 的 需要 并 不 多 ， 所 以 我 重点 介绍 新 式 网 页 中 普遍 使 用 的 客户 端 语言 : JavaScript, 
































到 目前 为 止 ，JavaScript 是 网 络 上 最 常用 也 是 支持 者 最 多 的 客户 端 脚 本 语言 。 它 可 以 收集 
用 户 的 跟踪 数据 ， 不 需要 重 载 页 面 直接 提交 表单 ， 在 页 面 府 入 多 媒体 文件 ， 甚 至 运行 网 页 
游戏 。 那 些 看 起 来 非常 简单 的 页 面 背后 通常 使 用 了 许多 JavaScript 文件 。 你 可 以 在 网 页 源 
代码 的 «script» 标签 之 间 看 到 它们 : 





























«script» 
alert("This creates a pop-up using JavaScript"); 
</script> 


10.1 JavaScript 简介 
对 要 采集 的 语言 预先 做 些 了 解 会 很 有 用 。 自 己 熟悉 一 下 JavaScript 总 会 有 好 处 。 
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JavaScript 是 一 种 弱 类 型 语言 ， 其 语法 通常 可 以 与 Ct+ 和 Java 做 对 比 。 虽 然 语法 中 的 一 些 
元 素 ， 比 如 操作 符 、 循 环 条 件 和 数组 ， 都 与 CH+、Java 语法 很 接近 ， 但 是 JavaScript 的 弱 
类 型 和 脚本 形式 被 一 些 程序 员 看 成 是 折磨 人 的 怪兽 。 


例如 ， 下 面 的 JavaScript 程序 通过 递归 方式 计算 Fibonacci 序列 ， 最 后 把 结果 打印 在 浏览 器 
的 开发 者 控制 台 里 : 


<script> 
function fibonacci(a, b){ 
var nextNum - a * b; 
console.log(nextNum*-" is in the Fibonacci sequence"); 
if(nextNum < 100){ 
fibonacci(b, nextNum); 


} 


fibonacci(1, 1); 
</script> 


注意 JavaScript 里 所 有 的 变量 都 用 var 关键 词 字 进行 定义 。 这 与 PHP 里 的 $ 符 号 类 似 , 或 
者 Java 和 C++ 里 的 类 型 声明 (int, String, List 等 )。Python 不 太一 样 ， 它 没有 这 种 显 
式 的 变量 声明 。 


JavaScript 还 有 一 个 非常 好 的 特性 ， 就 是 把 函数 作为 变量 使 用 : 


«script» 

var fibonacci = function() { 
var a - 1; 
var b = 1; 


return function() { 
var temp = b; 


b =a + b; 
a = temp; 
return b; 


} 


var fibInstance = fibonacci(); 

console.log(fibInstance()4" is in the Fibonacci sequence"); 
console.log(fibInstance()4" is in the Fibonacci sequence"); 
console.log(fibInstance()4" is in the Fibonacci sequence"); 
«[script» 


58 —UCB SIX ERE REA RILAR, NIE ADR REPR EA Lambda 表达 式 (第 2 
章 介 绍 过 ) ， 就 会 很 简单 了 。 变 量 fibonacci 被 定义 成 一 个 函数 。 它 的 函数 值 返回 一 个 递增 
的 Fibonacci 序列 里 较 大 的 值 。 每 次 当 它 被 调用 时 会 返回 Fibonacci 的 计算 函数 ， 再 次 执行 
序列 计算 ， 并 增加 函数 变量 的 值 。 


虽然 这 样 看 起 来 有 点 儿 复 杂 ， 但 是 在 解决 一 些 问 题 时 ， 比 如 计算 Fibonacci 序列 值 ， 这 种 
模式 还 是 比较 合适 的 。 在 处 理 用 户 行为 和 回调 函数 时 ， 把 函数 作为 变量 进行 传递 是 非常 方 
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便 的， 另外 在 阅读 JavaScript 代码 的 时 候 必 须 适应 这 种 编程 方式 .。 


常用 JavaScript 库 


虽然 了 解 JavaScript 语言 本 身 的 语法 很 重要 ， 但 是 在 新 式 的 网 络 中 你 必然 要 使 用 至 少 一 
种 JavaScript 语言 的 第 三 方 库 。 在 查看 网 页 源 代码 的 时 候 ， 你 可 能 会 看 到 很 多 常用 的 
JavaScript FE, 


























用 Python 执行 JavaScript 代码 的 效率 非常 低 ， 既 费时 又 费力 ， 尤 其 是 在 处 理 规模 较 大 的 
JavaScript 代码 时 。 如 果 有 绕 过 JavaScript 并 直接 解析 它 的 方法 (不 需要 执行 它 就 可 以 获得 
信息 ) 会 非常 实用 ， 可 以 帮 你 避 开 一 大 堆 JavaScript 的 麻烦 事 。 











1. jQuery 

jQuery 是 一 个 十 分 常见 的 库 ，70% 最 流行 的 网 站 (23 200 万 ) 和 约 30% 的 其 他 网 站 ( 约 2 

亿 ) 都 在 使 用 。 一 个 网 站 使 用 jQuery 的 特征 ， 就 是 源 代码 里 包含 了 jQuery 入 口 ， 比 如 : 
«script src="http://ajax.googleapis.com/ajax/libs/jquery/1.9.1/jquery.min.js"></ 
script» 

如 果 你 在 一 个 网 站 上 看 到 了 jQuery， 那么 采集 这 个 网 站 数据 的 时 候 要 格外 小 心 。jQuery 可 

以 动态 地 创建 HTML 内 容 ， 只 有 在 JavaScript 代码 执行 之 后 才 会 显示 。 如 果 你 用 传统 的 方 

法 采集 页 面 内 容 ， 就 只 能 获得 JavaScript 代码 执行 之 前 页 面 上 的 内 容 (我 们 将 在 10.2 节 详 

细 介 绍 这 个 采集 问题 ) 。 


另外 ， 这 些 页 面 还 可 能 包含 动画 、 用 户 交 互 内 容 和 典 入 式 媒 体 ， 这 些 内 容 对 网 络 数据 采集 
都 是 挑战 。 






























































2. Google Analytics 

有 一 半 的 网 站 都 在 用 Google Analytics ， 它 可 能 是 网 站 最 常用 的 JavaScript 库 和 最 受 欢迎 的 
用 户 跟 踪 工 具 。 其 实 ，http://pythonscraping.com 和 http://www.oreilly.com/ 都 用 了 Google 
Analytics。 























很 容易 判断 一 个 页 面 是 不 是 使 用 了 Google Analytics。 如 果 网 站 使 用 了 它 ， 在 页 面 底 部 会 有 
类 似 如 下 所 示 的 JavaScript 代码 (t Ej O'Reilly Media 网 站 ) : 











<!-- Google Analytics --> 
<script type="text/javascript"> 








注 1: Dave Methvin 于 2014 年 1 H 13 日 在 他 的 博客 中 发 表 了 “The State of jQuery 2014” (http://blog.jquery. 
com/2014/01/13/the-state-of-jquery-2014/) 一 文 ， 里 面包 含 了 大 量 的 统计 数据 。 
注 2: W3Techs, "Usage Statistics and Market Share of Google Analytics for Websites" («http://w3techs.com/ 
































technologies/details/ta-googleanalytics/all/all) 





var gaq = gaq || []; 

-gaq.push([' setAccount', 'UA-4591498-1']); 
.gaq.push([' setDomainName', 'oreilly.com']); 
.gaq.push([' addIgnoredRef', 'oreilly.com']); 
-gaq.push(['. setSiteSpeedSampleRate', 50]); 
.gaq.push([' trackPageview']); 


(function() ( var ga = document.createElement('script'); ga.type = 
'text/javascript'; ga.async - true; ga.src - ('https:' -- 
document.location.protocol ? 'https://ssl' : 'http://www') + 
'.google-analytics.com/ga.js'; var s - 
document.getElementsByTagName( ' script')[0]; 
s.parentNode.insertBefore(ga, s); })(); 


</script> 





如 果 一 个 网 站 使 用 了 Google Analytics 或 其 他 类 似 的 网 络 分 析 系 统 ， 而 你 不 想 让 网 站 知道 
你 在 采集 数据 ， 就 要 确保 把 那些 分 析 工 具 的 cookie 或 者 所 有 cookie 都 关 掉 。 


3. Google 地 图 
只 要 你 上 过 网 ， 就 一 定 见 过 内 岁 Google 地 图 的 网 站 。 用 Google 地 图 的 API 很 容易 在 任何 
网 站 上 嵌入 地 图 。 


如 果 你 要 采集 任何 的 位 置 数 据 ， 理 解 Google 地 图 的 工作 方式 可 以 让 你 轻松 地 获取 格式 规 
范 的 经 纬度 坐标 和 具体 地 址 。 在 Google 地 图 上 ， 显 示 一 个 位 置 最 常用 的 方法 就 是 用 标记 
(一 个 大 头 针 ) 。 


标记 可 以 用 下 面 的 代码 插 在 Google 地 图 上 : 

































































var marker = new google.maps.Marker({ 
position: new google.maps.LatLng(-25.363882,131.044922), 
map: map, 
title: 'Some marker text' 


25 
Python 可 以 轻松 地 抽取 出 所 有 位 置 在 google.maps.LatLng() 里 的 坐标 ， 生 成 一 组 经 / 纬度 
坐标 值 。 


通过 Google 的 “地 理 坐 标 反 向 查询 ”API (https://developers.google.com/maps/documentation/ 
javascriptexamples/geocoding-reverse) ， 你 可 以 把 这 些 经 纬度 坐标 组 解析 成 格式 规范 的 地 
址 ， 便 于 存储 和 分 析 。 


10.2 ”Ajax 和 动态 HTML 


到 目前 为 止 ， 我 们 与 网 站 服务 器 通信 的 唯一 方式 ， 就 是 发 出 HTTP 请 求 获取 新 页 面 。 如 果 
提交 表单 之 后 ， 或 从 服务 器 获取 信息 之 后 ， 网 站 的 页 面 不 需要 重新 刷新 ， 那 么 你 访问 的 网 
站 就 在 用 Ajax 技术 。 
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与 一 些 人 的 印象 不 太一 样 ，Ajax 其 实 并 不 是 一 门 语言 ， 而 是 用 来 完成 网 络 任务 (可 以 认为 
它 与 网 络 数 据 采 集 差 不 多 ) 的 一 系列 技术 。Ajax 全 称 是 Asynchronous JavaScript and XML 
(异步 JavaScript 和 XML), ， 网 站 不 需要 使 用 单独 的 页 面 请 求 就 可 以 和 网 络 服务 器 进行 交互 
(收发 信息 )。 需 要 注意 的 是 : 你 不 应 该 说 “这 个 网 站 是 Ajax 写 的 ”。 正 确 的 说 法 应 该 是 
“这 个 表单 用 Ajax 与 网 络 服 务 器 通信 ”。 
































和 Ajax 一 样 ， 动 态 HTML (dynamic HTML, DHTML) 也 是 一 系列 用 于 解决 网 络 问题 的 
技术 集合 。DHTML 是 用 客户 端 语言 改变 页 面 的 HTML 元 素 (HTML、CSS， 或 者 二 者 皆 
被 改变 )。 比 如 ， 页 面 上 的 按钮 只 有 当 用 户 移动 鼠标 之 后 才 出 现 ， 背 景色 可 能 每 次 点 击 都 
会 改变 ， 或 者 用 一 个 Ajax 请 求 触发 页 面 加 载 一 段 新 内 容 。 


值得 注意 的 是 ， 虽 然 “ 动 态 ” 这 个 词 往往 和 “移动 ”或 “变化 ”联系 在 一 起 ， 但 是 那些 使 
用 了 交互 HTML 组 件 、 图 像 可 以 移动 ， 或 者 带 有 上 航 入 式 媒体 文件 的 网 页 ， 并 不 一 定 就 是 动 
态 HIML， 即 使 页 面 看 起 来 是 动态 的 。 另 外 ， 一 些 表面 看 起 来 极其 单调 、 静 态 的 页 面 ， 底 
层 却 可 能 是 用 DHTML 处 理 的 ， 关 键 要 看 有 没有 用 JavaScript 控制 HTML 和 CSS 元 素 。 




























































































如 果 你 采集 过 许多 网 站 ， 很 可 能 会 遇 到 这 样 一 种 情况 。 你 在 浏览 器 上 看 到 的 内 容 ， 与 你 用 
爬虫 从 网 站 上 采集 的 内 容 不 一 样 。 你 可 能 会 怀疑 自己 是 不 是 哪个 细节 没 处 理 好 ， 和 希望 找 出 
内 容 采 集 不 出 来 的 原因 。 

有 时 你 还 会 发 现 ， 网 页 用 一 个 加 载 页 面 把 你 引 到 另 一 个 页 面 上 ， 但 是 网 页 的 URL 链接 在 
这 个 过 程 中 一 直 没 有 变化 。 

这 些 都 是 因为 你 的 候 虫 不 能 执行 那些 让 页 面 产生 各 种 神奇 效果 的 JavaScript 代码 。 如 果 网 
站 的 HTML 页 面 没 有 运行 JavaScript， 就 可 能 和 你 在 浏览 器 里 看 到 的 样子 完全 不 同 ， 因 为 
浏览 器 可 以 正确 地 执行 JavaScript。 






































那些 使 用 了 Ajax 或 DHTML 技术 改变 /加 载 内 容 的 页 面 ， 可 能 有 一 些 采集 手段 ， 但 是 用 
Python 解决 这 个 问题 只 有 两 种 途径 : 直接 从 JavaScript 代码 里 采集 内 容 ， 或 者 用 Python 的 
第 三 方 库 运行 JavaScript， 直 接 采 集 你 在 浏览 器 里 看 到 的 页 面 。 





在 Python 中 用 Selenium 执 行 JavaScript 


Selenium (http://www.seleniumhq.org/) 是 一 个 强大 的 网 络 数据 采集 工具 ， 甚 最 初 是 为 网 
站 自动 化 测试 而 开发 的 。 近 几 年 ， 它 还 被 广泛 用 于 获取 精确 的 网 站 快照 ， 因 为 它们 可 以 直 
接 运行 在 浏览 器 上 。Selenium 可 以 让 浏览 器 自动 加 载 页 面 ， 获 取 需 要 的 数据 ， 其 至 页 面 截 
屏 ， 或 者 判断 网 站 上 某 些 动作 是 否 发 生 。 
Selenium 自己 不 带 浏 览 器 ， 它 需要 与 第 三 方 浏 览 器 结合 在 一 起 使 用 。 例 如 ， 如 果 你 在 


Firefox 上 运行 Selenium， 可 以 直接 看 到 一 个 Firefox 窗口 被 打开 ， 进 入 网 站 ， 然 后 执行 你 
在 代码 中 设置 的 动作 。 虽 然 这 样 可 以 看 得 更 清楚 ， 但 是 我 更 喜欢 让 程序 在 后 台 运 行 ， 所 以 
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我 用 一 个 叫 PhantomJS (http://phantomjs.org/download.html) 的 工具 代替 真实 的 浏览 器 。 





PhantomJS 是 一 个 “无 头 ”(headless) 浏览 器 。 它 会 把 网 站 加 载 到 内 存 并 执行 页 面 上 的 
JavaScript， 但 是 它 不 会 向 用 户 展示 网 页 的 图 形 界面 。 把 Selenium 和 PhantomJS 结合 在 一 
起 ， 就 可 以 运行 一 个 非常 强大 的 网 络 腿 虫 了 了， 可 以 处 理 cookie、JavaScrip、header， 以 及 
任何 你 需要 做 的 事情 。 
























































你 可 以 从 PyPI 网 站 (https://pypi.python.org/simple/selenium/) 下 载 Selenium 库 ， 也 可 以 用 
第 三 方 管理 器 ( 像 pip) 用 命令 行 安装 。 








PhantomJS 也 可 以 从 它 的 官方 网 站 (http://phantomjs.org/download.html) 下 载 。 因 为 
PhantomJS 是 一 个 功能 完善 (虽然 无 头 ) 的 浏览 器 ， 并 非 一 个 Python 库 ， 所 以 它 不 需要 像 
Python 的 其 他 库 一 样 安装 ， 也 不 能 用 pip 安装 。 


























虽然 有 很 多 页 面 都 用 Ajax 加 载 数据 (尤其 是 Google) ， 我 还 是 在 http://pythonscraping.com/ 
pages/javascript/ajaxDemo.html 建 了 一 个 简单 的 页 面 来 运行 我 们 的 爬虫 。 这 个 页 面 上 有 一 些 
简单 的 文字 ， 是 手工 敲 在 HTML 代码 里 的 ， 打 开 页 面 两 秒 钟 之 后 ， 页 面 就 会 被 禁 换 成 一 个 
Ajax 生成 的 内 容 。 如 果 我 们 用 传统 的 方法 采集 这 个 页 面 ， 只 能 获取 加 载 前 的 页 面 ， 而 我 们 
真正 需要 的 信息 (Ajax 执行 之 后 的 页 面 ) 却 抓 不 到 。 









































Selenium 库 是 一 个 在 WebDriver 上 调用 的 API。WebDriver 有 点 儿 像 可 以 加 载 网 站 的 浏览 
器 ， 但 是 它 也 可 以 像 BeautifulSoup 对 象 一 样 用 来 查找 页 面 元 素 ， 与 页 面 上 的 元 素 进 行 交 互 
(发 送 文 本 、 点 击 等 )， 以 及 执行 其 他 动作 来 运行 网 络 仆 虫 。 





























7 


下 面 的 代码 可 以 获取 前 面 测试 页 面 上 Ajax“ 墙 ”后 面 的 内 容 : 




















from selenium import webdriver 
import time 


driver = webdriver.PhantomJS(executable path-'') 
driver.get("http://pythonscraping.com/pages/javascript/ajaxDemo.html") 
time.sleep(3) 

print(driver.find element by id('content').text) 

driver.close() 


这 段 代 码 用 PhantomJS 库 创 建 了 一 个 新 的 Selenium WebDriver， 首 先 用 WebDriver 加 载 页 
面 ， 然 后 暂停 执行 3 秒 钟 ， 再 查看 页 面 获 取 (希望 已 经 加 载 完成 的 ) 内 容 。 


依据 你 的 PhantomJS 安装 位 置 ， 在 创建 新 的 PhantomJS WebDriver 的 时 候 ， 你 需要 在 
Selenium 的 WebDriver 接 入 点 指明 PhantomJS 可 执行 文件 的 路 径 : 




















driver = webdriver.PhantomJS(executable path-'/path/to/download/ 
phantomjs-1.9.8-macosx/bin/phantomjs') 
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Selenium 的 选择 器 


在 之 前 的 几 章 里 ， 我 们 用 过 BeautifulSoup 的 选择 器 选择 页 面 的 元 素 ， 比 如 find 和 
findALL。Selenium 在 WebDriver 的 DOM 中 使 用 了 全 新 的 选择 器 来 查找 元 素 ， 不 过 它们 
都 使 用 非常 直 礁 了 当 的 名 称 。 

在 这 个 例子 中 ,我 们 用 的 选择 器 是 find_element_by_id， 虽 然 下 面 的 选择 器 也 可 以 获取 
同样 的 结果 


driver.find element by_css_selector("#content") 
driver.find element by tag name("div") 


当然 ， 如 果 你 想 选择 页 面 上 具有 同样 特征 的 多 个 元 素 ， 可 以 用 elements ( 换 成 复数 ) 
来 返回 一 个 Python 列表 : 


driver.find_elements_by_css_selector("#content") 
driver.find_elements_by_css_selector("div") 


另外 ， 如 果 你 还 是 想 用 BeautifulSoup 来 解析 网 页 内 容 ， 可 以 用 WebDriver 的 page_ 
source 沁 数 返回 页 面 的 源 代码 字符 串 。 
pageSource = driver.page source 


bsObj = BeautifulSoup(pageSource) 
print(bsObj.find(id-"content").get text()) 





























如 果 程 序 配 置 都 正确 ， 上 面 的 程序 会 在 几 秒 钟 以 后 显示 下 面 的 结果 : 














Here is some important text you want to retrieve! 
A button to click! 





需要 注意 的 是 ， 虽 然 页 面 里 有 一 个 元 素 是 HTML 按钮 ， 但 是 Selenium 的 .text 函数 可 以 
获取 按钮 的 文本 内 容 ， 就 像 它 获取 页 面 上 其 他 元 素 内 容 的 方式 一 样 。 


如 果 time.sleep 的 暂停 时 间 由 三 秒 改 成 一 秒 ， 那 么 上 面 程序 采集 的 文本 就 会 变 成 : 





























This is some content that will appear on the page while it's loading. 
You don't care about scraping this. 


个 方法 奏效 了 ， 但 是 效率 还 不 够 高 ， 在 处 理 规模 较 大 的 网 站 时 还 是 可 能 会 出 问题 。 
ae a 具体 依赖 于 服务 器 某 一 富 秒 的 负载 情况 ， 以 及 不 断 变化 的 网 
速 。 虽 然 这 个 页 面 加 载 可 能 只 需要 花 两 秒 多 的 时 间 ， 但 是 我 们 设置 了 三 秒 的 等 待 时 间 以 确 
保 页 面 完 全 加 载 成 功 。 一 种 更 加 有 效 的 方法 是 ， 让 Selenium 不 断 地 检查 某 个 元 素 是 否 存 
在 ， 以 此 确定 页 面 是 否 已 经 完全 加 载 ， 如 果 页 面 加 载 成 功 就 执行 后 面 的 程序 。 


下 面 的 程序 用 id 是 LoadedButton 的 按钮 检查 页 面 是 不 是 已 经 完全 加 载 : 


































































































from selenium.webdriver.common.by import By 
from selenium.webdriver.support.ui import WebDriverWait 





from selenium.webdriver.support import expected conditions as EC 


driver = webdriver.PhantomJS(executable path-'') 
driver.get("http://pythonscraping.com/pages/javascript/ajaxDemo.html") 
try: 

element - WebDriverWait(driver, 10).until( 

EC.presence of element located((By.ID, "loadedButton"))) 

finally: 

print(driver.find element by id("content").text) 

driver.close() 


程序 里 新 导入 了 一 些 新 的 模块 ， 最 需要 注意 的 就 是 WebDriverWait 和 expected conditions, 
这 两 个 模块 组 合 起 来 构成 了 Selenium 的 隐 式 等 待 (implicit wait), 











隐 式 等 待 与 显 式 等 待 的 不 同 之 处 在 于 ， 隐 式 等 竺 是 等 DOM 中 某 个 状态 发 生 后 再 继续 运行 
代码 (没有 明确 的 等 待 时 间 ， 但 是 有 最 大 等 待 时 限 ， 只 要 在 时 限 内 就 可 以 )， 而 显 式 等 待 
明确 设置 了 等 待 时 间 ， 如 前 面 例子 的 等 待 三 秒 钟 。 在 隐 式 等 待 中 ，DOM 触发 的 状态 是 用 
expected conditions 定义 的 (这 里 导入 后 用 了 别名 EC， 是 经 常 使 用 的 简称 )。 在 Selenium 
库 里 面 元 素 被 触发 的 期 望 条 件 (expected condition) 有 很 多 种 ， 包 括 : 


。 弹出 一 个 提示 
。 一 个 元 素 被 选中 (比如 文本 框 ) 

。 页 面 的 标题 改变 了 ， 或 者 某 个 文字 显示 在 页 面 上 或 者 某 个 元 素 里 
。 一 个 元 素 在 DOM 中 变 成 可 见 的 ， 或 者 一 个 元 素 从 DOM 中 消失 了 


当然 ， 大 多 数 的 期 望 条 件 在 使 用 前 都 需要 你 先 指 定 等 待 的 目标 元 素 。 元 素 用 定位 器 
(locator) 指定 。 注 意 ， 定 位 器 与 选择 器 是 不 一 样 的 (请 看 前 面 关 于 选择 器 的 介绍 )。 定 位 
器 是 一 种 抽象 的 查询 语言 ， 用 By 对 象 表 示 ， 可 以 用 于 不 同 的 场合 ， 包 括 创 建 选择 器 。 
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在 下 面 的 示例 代码 中 ， 一 个 定位 器 被 用 来 查找 id 是 LoadedButton 的 按钮 ; 





EC.presence of element located((By.ID, "loadedButton")) 
定位 器 还 可 以 用 来 创建 选择 器 ， 配 合 WebDriver 的 find. element 函数 使 用 : 


print(driver.find element(By.ID, "content").text) 











才 


看 这 行 代码 的 功能 和 示例 代码 中 一 样 : 








print(driver.find element by id("content").text) 


如 果 你 可 以 不 用 定位 器 ， 就 不 要 用 ， 毕 竞 这 样 可 以 少 导入 一 个 模块 。 但 是 ， 定 位 器 是 一 种 
十 分 方便 的 工具 ， 可 以 用 在 不 同 的 应 用 中 ， 并 且 具 有 很 好 的 灵活 性 。 














下 面 是 定位 器 通过 By 对 象 进行 选 择 的 策略 。 
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e ID 
在 上 面 的 例子 里 用 过 ; 通过 HTML 的 id 属性 查找 元 素 。 








e CLASS_NAME 
通过 HTML 的 class 属性 来 查找 元 素 。 为 什么 这 个 函数 是 CLASS_NAME， 而 不 是 简单 的 
CLASS ? 在 Selenium 的 Java Æ {EJH object.CLASS 可 能 会 出 现 问 题 ，.class 是 Java ft 
留 的 一 个 方法 。 为 了 让 Selenium 语法 可 以 兼容 不 同 的 语言 ， 就 用 CLASS NAME 代替 。 











* CSS SELECTOR 
通过 CSS HJ class, id, tag 属性 名 来 查找 元 素 ， 用 #idName、.className、tagName 
表示 。 





。 LINK_TEXT 
通过 链接 文字 查找 HTML 的 <a> 标签 。 例 如 ， 如 果 一 个 链接 的 文字 是 “Next”， 就 可 以 
用 (By.LINK TEXT, "Next") 来 选择 。 


e PARTIAL_LINK_TEXT 
与 LINK_TEXT 类 似 ， 只 是 通过 部 分 链接 文字 来 查找 。 
e NAME 
通过 HTML 标签 的 name 属性 查找 。 这 在 处 理 HTML 表单 时 非常 方便 。 





。 TAG_NAME 
通过 HTML 标签 的 名 称 查找 。 


e XPATH 
用 XPath 表达 式 (语法 在 下 面 介绍 ) 选择 匹配 的 元 素 。 




















XPath 语法 
XPath (XML Path，XML 路 径 ) 是 在 XML 文档 中 导航 和 选择 元 素 的 查询 语言 。 它 由 
W3C 于 1999 年 创建 ， 在 Python、Java 和 CH 这 些 语 言 中 有 时 会 用 XPath 来 处 理 XML 
文档 。 
虽然 BeautifulSoup 不 支持 XPath， 但 是 本 书 中 的 很 多 库 (Ixml, Selenium, Scrapy 等 ) 
都 支持 。 它 的 使 用 方式 通常 和 CSS 选择 器 (比如 mytag#idname) 一 样 ， 虽 然 它 原本 被 
设计 用 于 处 理 更 规范 的 XML 文档 而 不 是 HTML 文档 。 
在 XPath 语法 中 有 四 个 重要 概念 。 


。 根 节 点 和 非 根 节点 
4 /div 选择 div 节点 ， 只 有 当 它 是 文档 的 根 节 点 时 
4 //div 选择 文档 中 所 有 的 div 节点 (包括 非 根 节点 ) 
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。 通过 属性 选择 节点 

4 //ehref 选择 带 href 属性 的 所 有 节点 

+ [[a[Ghrefz'http://google.con' ] 选择 页 面 中 所 有 指向 Google 网 站 的 链接 
。 通过 位 置 选择 节点 

4 //a[3] 选择 文档 中 的 第 三 个 链接 

4 //table[last()] 选择 文档 中 的 最 后 一 个 表 

4 //a[lposition() < 3] 选择 文档 中 的 前 三 个 链接 
。 星 号 (*) 匹配 任意 字符 或 节点 ， 可 以 在 不 同 条件 下 使 用 

€ [[table/tr/* 选择 所 有 表格 行 tr 标签 的 所 有 的 子 节点 〈 这 很 适合 选择 th 和 td 标 

签 ) 

4 //div[@*] 选择 带 任意 属性 的 所 有 div 标签 
当然 ，XPath 还 有 很 多 高 级 的 语法 特征 。 经 过 这 些 年 的 发 展 ， 它 已 经 变 成 一 种 非常 复 
杂 的 查询 语言 ， 可 以 使 用 布尔 类 型 、 函 数 〈 如 position()) ， 以 及 大 量 这 里 没 介绍 的 操 
作 符 。 
如 果 这 里 介绍 的 几 个 XPath 功能 解决 不 了 你 的 HTML 或 XML 元 素 选择 问题 ， 请 参考 
微软 的 XPath 语法 页 面 (https://msdn.microsoft.com/en-us/enus/library/ms256471) 。 


10.3 ”处 理 重 定向 

客户 端 重 定向 是 在 服务 器 将 页 面 内 容 发 送 到 浏览 器 之 前 ， 由 浏览 器 执行 JavaScript 完成 的 
页 面 跳 转 ， 而 不 是 服务 器 完成 的 跳 转 。 当 使 用 浏览 器 访问 页 面 的 时 候 ， 有 时 很 难 区 分 这 两 
种 重 定 向 。 由 于 客户 端 重 定向 执行 很 快 ， 加 载 页 面 时 你 甚至 感觉 不 到 任何 延迟 ， 所 以 会 让 
你 觉得 这 个 重 定向 就 是 一 个 服务 器 端 重 定向 。 

但 是 ， 在 进行 网 络 数据 采集 的 时 候 ， 这 两 种 重 定向 的 差异 是 非常 明显 的 。 根 据 具体 情况 ， 
服务 器 端 重 定向 一 般 都 可 以 轻松 地 通过 Python 的 urltib 库 解 决 ， 不 需要 使 用 Selenium 
(更 多 的 介绍 请 参考 第 3 章 )。 客 户 端 重 定向 却 不 能 这 样 处 理 ， 除 非 你 有 工具 可 以 执行 


JavaScript。 


Selenium 可 以 执行 这 种 JavaScript 重 定向 ， 和 它 处 理 其 他 JavaScript 的 方式 一 样 ， 但 是 这 类 
重 定向 的 主要 问题 是 什么 时 候 停止 页 面 监控 ， 也 就 是 说 ， 怎 么 识别 一 个 页 面 已 经 完成 重 定 
向 。 在 http://pythonscraping.com/pages/javascript/redirectDemo2.html 的 示例 页 面 是 客户 端 重 
定向 的 例子 ， 有 两 秒 的 延迟 。 

我 们 可 以 用 一 种 智能 的 方法 来 检测 客户 端 重 定 向 是 否 完成 ， 首 先 从 页 面 开 始 加 载 
时 就 “监视 ”DOM 中 的 一 个 元 素 ， 然 后 重复 调用 这 个 元 素 直 到 Selenium 抛 出 一 个 
StaleElementReferenceException 异常 ;也 就 是 说 ， 元 素 不 在 页 面 的 DOM 里 了 ， 说 明 这 时 
网 站 已 经 跳 转 : 
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from selenium import webdriver 

import time 

from selenium.webdriver.remote.webelement import WebElement 

from selenium.common.exceptions import StaleElementReferenceException 


def waitForLoad(driver): 
elem - driver.find element by tag name("html") 
count - 0 
while True: 
count += 1 
if count > 20: 
print("Timing out after 10 seconds and returning") 
return 
time.sleep(.5) 
try: 
elem -- driver.find element by tag name("html") 
except StaleElementReferenceException: 
return 


driver = webdriver.PhantomJS(executable path-'«Path to Phantom Js»') 
driver.get("http://pythonscraping.com/pages/javascript/redirectDemo1.html") 
waitForLoad(driver) 

print(driver.page source) 


这 个 程序 每 半分 钟 检查 一 次 网 页 ， 看 看 html 标签 还 在 不 在 ， 时 限 为 10 秒 钟 ， 不 过 检查 的 
时 间 间 隔 和 时 限 都 可 以 根据 实际 情况 随意 调整 。 
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图 像 识 别 与 文字 处 理 





从 Google 的 无 人 罗 驶 汽车 到 可 以 识别 假 钞 的 自动 售卖 机 ， 机 器 视觉 一 直 都 是 一 个 应 用 广 
泛 且 具有 深 远 的 影响 和 雄伟 的 愿景 的 领域 。 在 这 一 章 里 ， 我 们 将 重点 介绍 机 器 视觉 的 一 个 
分 支 : 文字 识别 ， 介 绍 如 何 用 一 些 Python 库 来 识别 和 使 用 在 线 图 片 中 的 文字 。 

















当 你 不 想 让 自己 的 文字 被 网 络 机 器 人 采集 时 ， 把 文字 做 成 图 片 放 在 网 页 上 是 常用 的 办 法 。 
在 一 些 联系 人 通讯 孙 里 经 常 可 以 看 到 ， 一 个 邮箱 地 址 被 部 分 或 全 部 转换 成 图 片 。 人 们 可 能 
觉察 不 出 明显 的 差异 ， 但 是 机 器 人 阅读 这 些 图 片 会 非常 困难 ， 这 种 方法 可 以 防止 多 数 垃圾 
邮件 发 送 器 轻易 地 获取 你 的 邮箱 地 址 。 
































利用 这 种 人 类 用 户 可 以 正常 读 取 但 是 大 多 数 机 器 人 都 没 法 读 取 的 图 片 ， 验 证 码 
(CAPTCHA) 就 出 现 了 。 验 证 码 读 取 的 难 易 程度 也 大 不 相同 ， 有 些 验证 码 比 其 他 的 更 加 难 
读 ， 后 面 我 们 会 介绍 这 种 问题 。 



































但 是 ， 验 证 码 并 不 是 网 络 疏 虫 数 据 采集 时 需要 进行 图 像 转 文字 翻译 工作 的 唯一 对 象 。 目 
前 ， 有 很 多 文档 都 是 简单 地 扫描 后 直接 放 到 网 上 ， 它 们 和 互联 网 上 的 很 多 文档 一 样 都 没 法 
儿 直 接 使 用 ， 尽 管 它 们 都 “ 近 在 眼前 ”。 如 果 无 法 将 图 像 转 为 文字 ， 要 想 使 用 这 些 文 档 的 
内 容 ， 就 只 能 人 工 手 藤 了 一 一 没 人 愿意 花 时 间 干 这 事 儿 。 



































将 图 像 翻 译 成 文字 一 般 被 称 为 光学 文字 识别 (Optical Character Recognition，OCR)。 可 以 
实现 OCR 的 底层 库 并 不 多 ， 目 前 很 多 库 都 是 使 用 共同 的 几 个 底层 OCR 库 ， 或 者 是 在 上 面 
进行 定制 。 这 类 OCR 系统 有 时 会 变 得 非常 复杂 ， 所 有 我 建议 你 在 实践 这 一 章 的 代码 示例 
之 前 先 阅 读 下 一 市 的 内 容 。 
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11.1 OCR 库 概述 


在 读 取 和 处 理 图 像 、 图 像 相关 的 机 器 学 习 以 及 创建 图 像 等 任务 中 ，Python 一 直 都 是 非常 出 
色 的 语言 。 虽 然 有 很 多 库 可 以 进行 图 像 处 理 ， 但 在 这 里 我 们 只 重点 介绍 两 个 库 : Pillow 和 


Tesseract, 





















































每 个 库 都 可 以 从 它们 的 网 站 上 下 载 并 安装 (http:/pillow.readthedocs.org/installation.html 和 
https://pypi.python.org/pypi/pytesseract)， 或 者 用 第 三 方 管理 器 (f& pip) 通过 “pillow” 和 
“pytesseract” 进 行 安装 。 





11.1.1 Pillow 

尽管 Pillow 算 不 上 是 图 像 处 理 功能 最 全 的 库 ， 但 是 它 拥有 你 需要 使 用 的 全 部 功能 ， 除 非 你 
要 用 Python 重 写 一 个 Photoshop 或 进行 更 加 复杂 的 研究 。 它 也 是 一 个 文档 健全 且 十 分 易 用 
的 库 。 


























Pillow 是 从 Python 2.x 版 本 的 Python 图 像 库 (Python Imaging Library, PIL) 分 出 来 的 ， 支 
f$ Python 3.x 版 本 。 和 PIL 一 样 ，Pillow 也 可 以 轻松 地 导入 代码 ， 并 通过 大 量 的 过 滤 、 修 
饰 其 至 像素 级 的 变换 操作 处 理 图 片 : 























T 








from PIL import Image, ImageFilter 


kitten = Image.open("kitten.jpg") 

blurryKitten - kitten.filter(ImageFilter.GaussianBlur) 
blurryKitten.save("kitten blurred.jpg") 
blurryKitten.show() 





在 上 面 这 个 例子 中 ， 图 片 kitten.jpg 会 在 默认 的 图 片 浏览 器 里 打开 ， 不 过 看 着 会 有 点 儿 模 
糊 。 之 后 这 个 比较 模糊 的 图 片 被 另存 为 kitten_blurred.jpg， 与 原 图 放 在 一 个 文件 夹 里 。 









































我 们 可 以 用 Pillow 完成 图 片 的 预 处 理 ， 让 机 器 可 以 更 方便 地 读 取 图 片 。 除 了 这 些 简单 的 
事情 之 外 ，Pillow 还 可 以 完成 许多 复杂 的 图 像 处 理工 作 。 更 多 的 信息 ， 请 查看 Pillow 文档 
(http://pillow.readthedocs.org/) 。 











11.1.2 Tesseract 
Tesseract 是 一 个 OCR 库 ， 目 前 由 Google 赞助 (Google 也 是 一 家 以 OCR 和 机 器 学 习 技 术 
闻名 于 世 的 公司 )。Tesseract 是 目前 公认 最 优秀 、 最 精确 的 开源 OCR 系统 。 


除了 极 高 的 精确 度 ，Tesseract 也 具有 很 高 的 灵活 性 。 它 可 以 通过 训练 识别 出 任何 字体 CH 
要 这 些 字体 的 风格 保持 不 变 就 可 以 ， 后 面 我 们 会 介绍 ) ， 也 可 以 识别 出 任何 Unicode 字符 。 




















和 本 书 前 面 提 到 的 那些 库 不 同 ，Tesseract 是 一 个 Python 的 命令 行 工 具 ， 不 是 通过 import 
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语句 导入 的 库 。 安 装 之 后 ， 要 用 tesseract 命令 在 Python 的 外 面 运行 。 


安装 Tesseract 

在 Windows 系统 上 ， 下 载 方便 的 可 执行 安装 文件 (https://code. google.com/p/tesseract-ocr/ 
downloads/list) 安装 即 可 。 写 到 这 里 的 时 候 ， 最 新 的 版 本 是 3.02， 新 版 本 应 该 也 可 以 这 样 
安装 。 





Linux 用 户 可 以 通过 apt-get 安装 : 
$sudo apt-get tesseract-ocr 


在 Mac 上 安装 Tesseract 有 点 儿 复 杂 ， 不 过 用 Homebrew (http://brew.sh/) 等 第 三 方 库 可 以 
很 方便 地 安装 。Homebrew 在 第 5 章 介 绍 MySQL 安装 过 程 时 提 到 过 。 例 如 ， 你 可 以 用 下 
面 两 行 代码 首先 安装 Homebrew， 然 后 再 安装 Tesseract: 











Sruby -e "S(curl -fsSL https://raw.githubusercontent.com/Homebrew/ V 
install/master/install)" 
$brew install tesseract 





也 可 以 从 Tesseract 项 目下 载 页 面 (https://code.google.com/p/tesseract-ocr/downloads/list) 下 
载 源 代码 安装 。 


要 使 用 Tesseract 的 功能 ， 比 如 后 面 的 示例 中 训练 程序 识别 字母 ， 你 需要 先 在 系统 中 设置 一 
个 新 的 环境 变量 STESSDATA PREFIX, iL Tesseract 知道 训练 的 数据 文件 存储 在 哪里 。 


























在 大 多 数 Linux 系统 和 Mac OS X 系统 上 ， 你 可 以 这 么 设置 : 





Sexport TESSDATA PREFIX-/usr/local/share/ 


值得 注意 的 是 ， 虽 然 /usr/LocaL/share/ 是 Tesseract 的 默认 数据 存储 位 置 ， 但 是 你 还 是 应 
该 仔细 地 检查 一 下 ， 确 保 自 己 的 安装 没 问 题 。 

















在 Windows 系统 上 也 类 似 ， 你 可 以 通过 下 面 这 行 命令 设置 环境 变 


i 














#setx TESSDATA_PREFIX C:\Program Files\Tesseract OCR\ 


11.1.3 NumPy 


虽然 NumPy 并 非 解 决 OCR 问题 时 必须 使 用 的 库 ， 但 是 如 果 你 想 训 练 Tesseract 识别 本 章 后 
面 提 到 的 字符 或 字体 ， 那 么 就 会 用 到 它 。NumPy 是 一 个 非常 强大 的 库 ， 有 具有 大 量 线性 代数 
以 及 大 规模 科学 计算 的 方法 。 因 为 NumPy 可 以 用 数学 方法 把 图 片 表示 成 巨大 的 像素 数组 ， 
所 以 它 可 以 流畅 地 配合 Tesseract 完成 任务 。 




















和 其 他 Python 库 一 样 ，NumPy 可 以 通过 第 三 方 包 管理 器 (比如 pip) 来 安装 : 
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$pip install numpy 


11.2 ”处 理 格式 规范 的 文字 


你 要 处 理 的 大 多 数 文字 都 是 比较 干 交 、 格 式 规范 的 。 格 式 规范 的 文字 通常 可 以 庄 足 一 些 需 
求 ， 不 过 究竟 什么 是 “格式 混乱 ”， 什么 算 “ 格 式 规范 ”， 确 实 因 人 而 异 。 












































通常 ， 格 式 规范 的 文字 具有 以 下 特点 : 





。 使 用 一 个 标准 字体 (不 包含 手写 体 、 草 书 ， 或 者 十 分 “花哨 的 ”字体 ) 
。 虽然 被 复印 或 拍照 ， 字 体 还 是 很 清晰 ， 没 有 多 余 的 痕迹 或 污点 

。 排列 整齐 ， 没 有 至 焉 和 斜 斜 的 字 

。 没有 超出 图 片 范 围 ， 也 没有 残缺 不 全 ， 或 紧 紧 贴 在 图 片 的 边缘 





























文字 的 一 些 格式 问题 在 图 片 预 处 理 时 可 以 进行 解决 。 例 如 ， 可 以 把 图 片 转换 成 灰 度 图 ， 调 
整 亮度 和 对 比 度 ， 还 可 以 根据 需要 进行 裁剪 和 旋转 。 但 是 ， 这 些 做 法 在 进行 更 具 扩 展 性 的 
训练 时 会 遇 到 一 些 限制 。 详 情 请 见 11.3 市 。 

















11-1 是 格式 规范 文字 的 理想 示例 。 





This is some text, written in Arial, that will be read by 
Tesseract. Here are some symbols: !(Z$96^&"() 











11-1: 样本 文字 被 保存 为 tf 文件 ， 将 由 Tesseract 读 取 


你 可 以 通过 下 面 的 命令 运行 Tesseract， 读 取 文 件 并 把 结果 写 到 一 个 文本 文件 中 : 








Stesseract text.tif textoutput | cat textoutput.txt 




















输出 结果 的 第 一 行 是 Tesseract 的 版 本 信息 ， 表 明 它 正在 运行 ， 后 面 是 图 片 识别 结果 
textoutput.txt 文件 里 的 内 容 : 














Tesseract Open Source OCR Engine v3.02.02 with Leptonica 
This is some text, written in Arial, that will be read by 
Tesseract. Here are some symbols: !@#$%"&'() 





你 会 发 现 识别 结果 很 准确 ， 不 过 符号 “^” 和 “*” 分 别 被 表示 成 了 双 引 号 和 单 引 号 。 大 体 
上 可 以 让 你 很 舒服 地 阅读 。 














图 片 先 进行 模糊 处 理 ， 转 换 成 一 个 JPG 压缩 格式 的 图 片 ， 再 增加 一 点 儿 背 景 渐变 ， 识 别 效 
果 就 会 变 得 很 差 (如 图 11-2 所 示 )。 
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This is some text, written in Arial, that will. 
Tesseract. Here are some symbols: 











图 11-2: 你 在 网 上 看 到 的 许多 图 片 可 能 都 像 这 样 








Tesseract 不 能 完整 处 理 这 个 图 片 ， 主 要 是 因为 图 片 背 景色 是 渐变 的 ， 最 终结 果 是 这 样 : 





This is some text, written In Arlal, that" 
Tesseract. Here are some symbols: 


你 会 发 现 ， 随 着 背景 色 从 左 到 右 不 断 加 深 ， 文 字 变 得 越 来 越 难以 识别 ，Tesseract 识别 出 的 
每 一 行 的 最 后 几 个 字符 都 是 错 的 。 另 外 ， 经 过 JPG 格式 转换 和 模糊 效果 处 理 ，Tesseract 更 
难 识别 小 写 “i” 和 大 写 “I” 以 及 数字 “1”。 





遇 到 这 类 问题 ， 可 以 先 用 Python 脚本 对 图 片 进 行 清 理 。 利 用 Pillow 库 ， 我 们 可 以 创建 一 个 
闵 值 过 滤器 来 去 掉 渐变 的 背景 色 ， 只 把 文字 留 下 来 ， 从 而 让 图 片 更 加 清晰 ， 便 于 Tesseract 
读 取 : 








from PIL import Image 
import subprocess 


def cleanFile(filePath, newFilePath): 
image - Image.open(filePath) 





# OSEE Feet BR [EDGE UE. RRE 
image - image.point(lambda x: 0 if x«143 else 255) 
image.save(newFilePath) 




















# 调用 系统 的 tesseract 命 令 对 图 片 进行 OCR 识别 


subprocess.call(["tesseract", newFilePath, "output"]) 





# 打开 文件 读 取 结果 

outputFile = open("output.txt", 'r') 
print(outputFile.read()) 
outputFile.close() 


CleanFile("text 2.jpg", "text 2 clean.png") 











自动 创建 的 text_2_clean.png， 如 下 图 所 示 。 











This is some text, written in Arial, that will be read by 
Tesseract Here are some symbols: !(24$96^&*() 











图 11-3: 通过 一 个 阔 值 对 前 面 的 “模糊 ”图 片 进行 过 滤 的 结果 
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除了 一 些 标点 符号 不 太 清晰 或 丢失 了 ， 大 部 分 文字 都 被 读 出 来 了 。Tesseract 给 出 了 最 好 的 
结果 : 


This us some text' written In Anal, that will be read by 
Tesseract Here are some symbols: !@#$%"&'() 


图 片上 的 点 和 逗号 经 过 处 理 后 变 得 非常 小 ， 不 论 从 我 们 的 视角 还 是 Tesseract 的 视角 看 ， 这 
些 都 从 图 片上 基本 消失 了 。 还 有 一 点 失误 是 把 “Arial” 看 成 了 “Anal”， 这 是 Tesseract 把 
“r” 和 “i” 都 解释 成 了 “n” 的 结果 。 


不 过 ， 相 比 上 一 版 本 被 截断 的 识别 结果 ， 这 版 算 有 很 大 进步 了 。 



































Tesseract 最 大 的 缺点 是 对 渐变 背景 色 的 处 理 。 之 前 那个 版 本 中 ，Tesseract 的 算法 在 读 取 文 
字 之 前 自动 尝试 调整 图 片 对 比 度 ， 但 是 如 果 你 用 Pillow 库 这 样 的 工具 对 图 片 进 行 预 处 理 
效果 会 更 好 。 



































在 提交 给 Tesseract 处 理 之 前 ， 那 些 带 标 题 的 、 带 有 大 片 空白 的 图 片 ， 或 者 有 其 他 问题 的 图 
片 ， 都 应 该 做 预 处 理 。 


从 网 站 图 片 中 抓 取 文 字 

用 Tesseract 读 取 硬 盘 里 图 片上 的 文字 ， 可 能 不 怎么 令 人 兴奋 ， 但 当 我 们 把 它 和 网 络 念 虫 
组 合 使 用 时 ， 就 能 成 为 一 个 强大 的 工具 。 网 站 上 的 图 片 可 能 并 不 是 故意 把 文字 做 得 很 花哨 
(就 像 餐 馆 菜 单 的 JPG 图 片上 的 艺术 字 )， 但 它们 上 面 的 文字 对 网 络 怜 虫 来 说 就 是 隐藏 起 来 
了 ， 我 将 在 下 一 个 例子 里 演示 。 



































虽然 亚马逊 的 robots.txt 文件 允许 抓 取 网 站 的 产品 页 面 ， 但 是 图 书 的 预览 页 通常 不 让 网 络 机 
器 人 采集 。 图 书 的 预览 页 是 通过 用 户 触 发 Ajax 脚本 进行 加 载 的 ， 预 览 图 片 隐藏 在 div 节点 
下 面 ， 其 实 ， 普通 的 访问 者 会 觉得 它们 看 起 来 更 像 是 一 个 Flash 动画 ， 而 不 是 一 个 图 片 文 
件 。 当 然 ， 即 使 我 们 能 获得 图 片 ， 要 把 它们 读 成 文字 也 没 那 么 简单 。 


下 面 的 程序 就 解决 了 这 个 问题 : 首先 导航 到 托 尔 斯 泰 的 《战争 与 和 平 》 的 大 字号 印刷 版 ，， 
打开 阅读 器 ， 收 集 图 片 的 URL 链接 ， 然 后 下 载 图 片 ， 识 别 图 片 ， 最 后 打印 每 个 图 片 的 文 
字 。 因 为 这 个 程序 很 复杂 ， 利 用 了 前 面 几 章 的 多 个 程序 片段 ， 所 以 我 增加 了 一 些 注 释 以 让 
每 段 代 码 的 目的 更 加 清晰 : 
































7 















































import time 
from urllib.request import urlretrieve 
import subprocess 








注 1， 当 处 理 那些 没有 训练 过 的 文字 时 ，Tesseract 对 大 字号 印刷 版 书籍 版 本 的 识别 效果 更 好 ， 尤 其 是 在 图 片 
比较 小 的 时 候 。 在 下 一 节 我 们 将 介绍 如 何 用 不 同 的 字体 训练 Tesseract， 这 样 可 以 帮 它 识别 更 小 的 字 ， 
包括 普通 字号 印刷 版 书籍 。 
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from selenium import webdriver 





# 创建 新 的 Selenium driver 

driver = webdriver.PhantomJS(executable path-'«Path to Phantom JS>') 
# 有 时 我 发 现 PhantomJS 查 找 元 素 有 问题 ,但 是 Firefox 没 有 。 

# 如 果 你 运行 程序 的 时 候 出 现 问题 ,去 掉 下 面 这 行 注 释 ， 

# Hjseleniumj&j&Firefox]ul ha 23 : 

4 driver = webdriver.Firefox() 











driver.get( 


"http://www. amazon.com/War -Peace-Leo-Nikolayevich-Tolstoy/dp/1427030200") 
time.sleep(2) 








# 单 击 图 书 预 览 按钮 
driver.find element by id("sitbLogoImg").click() 
imagelist - set() 














# 等 待 页 面 加 载 完成 
time.sleep(5) 
# 当 向 右 箭头 可 以 点 击 时 ,开始 翻 页 
while "pointer" in driver.find element by id("sitbReaderRightPageTurner") 
.get attribute("style"): 
driver.find element by id("sitbReaderRightPageTurner").click() 
time.sleep(2) 
# 获取 已 加 载 的 新 页 面 (一 次 可 以 加 载 多 个 页 面 ,但 是 重复 的 页 面 不 能 加 载 到 集合 中 ) 
pages = driver.find elements by_xpath("//div[@class='pagelImage' ]/div/img") 
for page in pages: 
image = page.get attribute("src") 
imagelist.add(image) 











driver.quit() 





# 用 Tesseract 处 理 我 们 收集 的 图 片 URL 链 接 
for image in sorted(imagelist): 
urlretrieve(image, "page.jpg") 
p = subprocess.Popen(["tesseract", "page.jpg", "page"], 
stdout-subprocess.PIPE,stderr-subprocess.PIPE) 














p.wait() 
f = open("page.txt", "r") 
print(f.read()) 




















和 我 们 前 面 使 用 Tesseract 读 取 的 效果 一 样 ， 这 个 程序 也 会 完美 地 打印 书 中 很 多 长 长 的 段 


p. 





第 六 页 的 预览 如 下 所 示 : 
6 


"A word of friendly advice, mon 

cher. Be off as soon as you can, 
that's all I have to tell you. Happy 
he who has ears to hear. Good-by, 

my dear fellow. Oh, by the by!" he 
shouted through the doorway after 
Pierre, "is it true that the countess 
has fallen into the clutches of the 





pa 
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holy fathers of the Society of je- 


sus?" 


Pierre did not answer and left Ros- 
topchin's room more sullen and an- 
gry than he had ever before shown 


himself. 





但 是 ， 当 文字 出 现在 彩色 封面 上 时 ， 结 果 就 不 那么 完美 了 : 





WEI' nrrd Peace 


Len Nlkelayevldu Iolfluy 


Readmg shmdd be ax 


wlnvame asnossxble Wenfler 
an mm m our cram: Llhvary 


— Leo Tmsloy was a Russian rwovelwst 
I and moval phflmopher med lur 
A ms Ideas 01 nonviolenx reswslance m 5 We range 0, "and" 

















当然 ， 你 可 以 用 Pillow 库 挑 选 图片 进 行 清 理 ， 但 是 如 果 想 把 文字 加 工 成 普通 人 可 以 看 懂 的 





效果 ， 还 需要 花 很 多 时 间 去 处 理 。 








下 一 市 我 们 将 介绍 另 一 种 方法 来 解决 文字 混乱 的 问题 ， 尤 其 是 当 你 愿意 花 一 点 儿 时 间 训 练 


Tesseract 的 时 候 。 通 过 给 
就 可 以 “学 会 ”识别 同一 种 字体 ， 而 且 可 以 达到 极 高 的 精确 率 和 准确 率 ， 其 至 可 以 忽略 图 





Tesseract 提供 大 量 已 知 的 文字 与 图 片 映射 集 ， 经 过 训练 Tesseract 

















片 中 文字 的 背景 色 和 相对 位 置 等 问题 。 


11.3 读 取 验证 码 与 训练 Tesseract 


虽然 大 多 数 人 对 单词 “CAPTCHA ”都 很 熟悉 ， 但 是 很 少 人 知道 它 的 具体 含义 : 全 自动 区 
分 计算 机 和 人 类 的 图 灵 测 试 (Completely Automated Public Turing test to tell Computers and 














Humans Apart) 。 它 的 奇怪 缩写 似乎 表示 ， 它 一 直 在 扮演 着 十 分 奇怪 的 角色 。 其 目的 是 为 了 
阻止 网 站 访问 ， 而 不 是 让 访问 更 通畅 ， 它 经 常 让 人 类 和 非 人 类 的 网 络 机 器 人 深 陷 验证 码 识 


别 的 泥潭 不 能 自拔 。 











图 灵 测 试 首次 出 现在 阿兰 . 图 灵 (Alan Turing) 1950 年 发 表 的 论文 “计算 装置 与 智能 ” 














(Computing Machinery and Intelligence) 中 。 他 在 论文 中 描述 了 这 样 一 种 场景 : 一 个 人 可 以 
和 其 他 人 交流 ， 也 可 以 通过 计算 机 终端 和 人 工 智 能 程序 交流 。 如 果 一 番 对 话 之 后 这 个 人 不 
能 区 分 人 和 人 工 智 能 程序 ， 那 么 就 认为 这 个 人 工 智能 程序 通过 了 图 灵 测 试 ， 图 灵 认为 这 个 
人 工 智能 程序 就 可 以 真正 地 “思考 ”所 有 的 事情 。 





























令 人 吵 笑 皆 非 的 是 ，60 多 年 以 后 ， 我 们 开始 用 这 些 原本 测试 程序 的 题目 来 测试 我 们 自己 。 


Google 的 reCAPTCHA 难 














得 令 人 发 指 ， 作 为 目前 最 具有 安全 意识 的 流行 网 站 ，Google 拦截 
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了 多 达 25% 的 准备 访问 网 站 的 正常 人 类 用 户 。” 














大 多 数 其 他 的 验证 码 都 是 比较 简单 的 。 例 如 ， 流 行 的 PHP 内 容 管理 系统 Drupal 有 一 个 著 
名 的 验证 码 模 块 (https:/www.drupal.org/project/captcha)， 可 以 生成 不 同 难 度 的 验证 码 。 默 
认 图 片 如 图 11-4 所 示 。 























CAPTCHA 


This question is for testing whether or not you are a human visitor 
and to prevent automated spam submissions. 


AM mE 3 


What code is in the image? * 


Enter the characters shown in the image. 


Create new account 











& 11-4: Drupal 的 验证 码 项 目的 默认 文字 验证 码 示例 











那么 与 其 他 验证 码 相 比 ， 究 竟 是 什么 让 这 个 验证 码 更 容易 被 人 类 和 机 器 读 懂 呢 ? 





。 字母 没有 相互 琶 加 在 一 起 ， 在 水 平方 向 上 也 没有 彼此 交叉 。 也 就 是 说 ， 可 以 在 每 一 个 字 
母 外 面 画 一 个 方 框 ， 而 不 会 重 且 在 一 起 。 

。 图 片 没 有 背景 色 、 线 条 或 其 他 对 OCR 程序 产生 干扰 的 噪点 。 

。 虽然 不 能 因 一 个 图 片 下 定论 ， 但 是 这 个 验证 码 用 的 字体 种 类 很 少 ， 而 且 用 的 是 sans-serif 
字体 〈 像 “4” 和 “M7”) 和 一 种 手写 形式 的 字体 (R "m" *C" F 73"), 

。 白色 背景 色 与 深 色 字 母 之 间 的 对 比 度 很 高 。 
























































这 个 验证 码 只 做 了 一 点 点 改变 ， 就 让 OCR 程序 很 难 识别 。 

















。 字母 和 数据 都 使 用 了 ， 这 会 增加 待 搜索 字符 的 数量 。 

。 字母 随机 的 倾斜 程度 会 迷惑 OCR 软件 ， 但 是 人 类 还 是 很 容易 识别 的 。 

。 那个 比较 陌生 的 手写 字体 很 有 挑战 性 ， 在 “C” 和 “3” 里 面 还 有 额外 的 线条 。 另 外 这 
个 非常 小 的 小 写 “m”， 计 算 机 需要 进行 额外 的 训练 才能 识别 。 











用 下 面 的 代码 运行 Tesseract 识别 图 片 : 























注 2: 详情 请 见 Quora 问题 : https://www.quora.com/What-is-the-success-rate-of-legitimate-users-passing-reCAP- 
TCHA-tests。 





VR] 
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$tesseract captchaExample.png output 

















我 们 得 到 的 结果 output.txt 是 : 


4N\， , ,C«3 





虽然 识别 出 了 4、C 和 3， 但 是 显然 这 样 的 结果 永远 也 不 能 识别 出 正确 的 验证 码 。 


训练 Tesseract 


要 训练 Tesseract 识别 一 种 文字 ， 无 论 是 隐 雇 难 懂 的 字体 还 是 验证 码 ， 你 都 需要 向 Tesseract 
提供 每 个 字符 不 同形 式 的 样本 。 


做 这 个 枯燥 的 工作 可 能 要 花 好 几 个 小 时 的 时 间 ， 你 可 能 更 想 用 这 点 儿 时 间 找 个 好 看 的 视频 
或 电影 看 看 。 首 先 要 把 大 量 的 验证 码 样 本 下 载 到 一 个 文件 夹 里 。 下 载 的 样本 数量 由 验证 码 
的 复杂 程度 决定 ， 我 在 训练 集 里 一 共 放 了 100 个 样本 (一 共 500 个 字符 ,平均 每 个 字符 8 
个 样本 ，a~z 大 小 写字 母 加 0~9 数字 ， 一 共 62 个 字符 )， 应 该 足够 训练 的 了 。 





imi 
































提示 : 建议 使 用 验证 码 的 真实 结果 给 每 个 样本 文件 命名 ( 即 4MmC3.jpg)。 这 样 可 以 帮 你 
一 次 性 对 大 量 的 文件 进行 快速 检查 一 一 你 可 以 先 把 图 片 调 成 缩 略 图 模式 ， 然 后 通过 文件 名 
对 比 不 同 的 图 片 。 这 样 在 后 面 的 步骤 中 进行 训练 效果 的 检查 也 会 很 方便 。 

第 二 步 是 准确 地 告诉 Tesseract 一 张 图 片 中 的 每 个 字符 是 什么 ， 以 及 每 个 字符 的 具体 位 置 。 
这 里 需要 创建 一 些 殉 形 定位 文件 (box file)， 一 个 验证 码 图 片 生成 一 个 矩形 定位 文件 。 一 
个 图 片 的 矩形 定位 文件 如 下 所 示 : 



































4 15 26 33 55 0 
M 38 13 67 45 0 
m 79 15 101 26 0 
C 111 33 136 60 0 
3 147 17 176 45 0 








第 一 列 符号 是 图 片 中 的 每 个 字符 ， 后 面 的 4 个 数字 分 别 是 包围 这 个 字符 的 最 小 矩形 的 坐标 
(图 片 左下 角 是 原点 0,0), 4 个 数字 分 别 对 应 每 个 字符 的 左下 角 x 坐标 、 左 下 角 y 坐标 、 碳 
Efi x 坐标 和 右上 角 y» 坐标 )， 最 后 一 个 数字 “0” 表 示 图 片 样本 的 编号 。 


TA, 手工 创建 这 些 图 片 矩 形 定 位 文件 很 无 聊 ， 不 过 有 一 些 工具 可 以 帮 你 完成 。 我 很 喜欢 
在 线 工具 Tesseract OCR Chopper (http://pp19dd.com/tesseract-ocr-chopper/)， 因 为 它 不 需要 
安装 ， 也 没有 其 他 依赖 ， 只 要 有 浏览 器 就 可 以 运行 ,而且 用 法 很 简单 :， 上传 图 片 ， 如 果 要 
增加 新 矩形 就 单 击 “add” 按 钮 ， 还 可 以 根据 需要 调整 算 形 的 尺寸 ， 最 后 把 新 生成 的 矩形 
定位 文件 复制 到 一 个 新 文件 里 就 可 以 了 。 



























































和 矩形 定位 文件 必须 保存 在 一 个 box 后 缀 的 文本 文件 中 。 和 图 片 文件 一 样 ， 文 本 文件 也 是 用 
验证 码 的 实际 结果 命名 (例如 ，4MmC3.box)。 另 外 ， 这 样 便于 检查 box 文件 的 内 容 和 文 
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件 的 名 称 ， 而 且 按 文件 名 对 目录 中 的 文件 排序 之 后 ， 就 可 以 让 .pox 文件 与 对 应 的 图 片 文件 
的 实际 结果 进行 对 比 。 























你 还 需要 创建 大 约 100 个 box 文件 来 保证 你 有 足够 的 训练 数据 。 因 为 Tesseract 会 忽略 那 
些 不 能 读 取 的 文件 ， 所 以 建议 你 尽量 多 做 一 些 矩 形 定位 文件 ， 以 保证 训练 足够 充分 。 如 果 
你 觉得 训练 的 OCR 结果 没有 达到 你 的 目标 ， 或 者 Tesseract 识别 某 些 字符 时 总 是 出 错 ， 多 
创建 一 些 训练 数据 然后 重新 训练 将 是 一 个 不 错 的 改进 方法 。 


创建 完满 载 .box 文件 和 图 片 文 件 的 数据 文件 夹 之 后 ， 在 做 进一步 分 析 之 前 最 好 备份 一 下 这 
个 文件 夹 。 虽 然 在 数据 上 运行 训练 程序 不 太 可 能 删除 任何 数据 ， 但 是 创建 .box 文件 用 了 你 
好 儿 个 小 时 的 时 间 ， 来 之 不 易 ， 稳 受 一 点 儿 总 没 错 。 此 外 ， 能 够 抓 取 一 个 满 是 编译 数据 的 
混乱 目录 ， 然 后 再 尝试 一 次 ， 总 是 好 的 。 


















































完成 所 有 的 数据 分 析 工 作 和 创建 Tesseract 所 需 的 训练 文件 ， 一 共有 六 个 步骤 。 有 一 些 工 具 
可 以 帮 你 处 理 图 片 和 .box 文件 ， 不 过 目前 Tesseract 3.02 还 不 支持 。 








我 写 了 一 个 Python 版 的 解决 方案 (https://github.com/REMitchell/tesseract-trainer) 来 处 理 同 
时 包含 图 片 文 件 和 .box 文件 的 数据 文件 来， 然后 自动 创建 所 有 必需 的 训练 文件 。 


这 个 解决 方案 的 主要 配置 方式 和 步骤 都 在 main 方法 (目前 ， 作 者 已 经 在 GitHub 中 将 示例 
代码 修改 为 init 方法 符合 Python 的 类 定义 原则 ) 和 runAll 方法 里 : 











def main(self): 
languageName - "eng" 
fontName = "captchaFont" 
directory = "«path to images»" 


de 


-=h 


runAll (self): 
self.createFontFile() 
self.cleanImages() 
self.renameFiles() 
self.extractUnicode() 
self.runShapeClustering() 
self.runMfTraining() 
self.runCnTraining() 
self.createTessData() 


你 需要 动手 设置 的 只 有 三 个 变量 。 
e LanguageName 


Tesseract 用 三 个 字母 的 语言 缩写 代码 表示 识别 的 语言 种 类 。 可 能 大 多 数 情况 下 ， 你 都 会 
用 “eng” 表 示 英 语 (English), 








e fontName 


表示 你 选择 的 字体 名 称 ， 可 以 是 任意 名 称 ， 但 必须 是 一 个 不 包含 空格 的 单词 。 
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e directory 
表示 包含 所 有 图 片 和 .box 文件 的 目录 。 建 议 你 使 用 文件 夹 的 绝对 路 径 ， 但 是 如 果 你 使 
用 相对 路 径 ， 可 能 需要 以 Python 代码 运行 的 目录 位 置 为 原点 。 如 果 你 使 用 绝对 路 径 ， 
就 可 以 在 电脑 的 任意 位 置 运行 代码 了 。 


让 我 们 再 看 看 runALL 里 每 个 国 数 的 用 法 。 


























createFontFile 创建 了 一 个 font properties 文件 ， 让 Tesseract 知道 我 们 要 创建 的 新 字体 





captchaFont 0 0 0 0 0 














这 个 文件 包括 字体 的 名 称 ， 后 面 跟着 若干 1 和 0， 分别 表示 应 该 使 用 斜体 、 加 粗 或 其 他 版 
本 的 字体 〈 用 这 些 属 性 训练 字体 是 一 个 很 好 玩 儿 的 练习 ， 不 过 超出 了 本 书 的 介绍 范围 ， 感 
兴趣 的 同学 可 以 自己 尝试 )。 


cleanImages 首先 创建 所 有 样本 图 片 的 高 对 比 度 版 本 ， 然 后 转换 成 灰 度 图 ， 并 进行 一 些 清 
理 ， 让 Tesseract 更 容易 读 取 图 片 文件 。 如 果 你 要 处 理 的 验证 码 图 片上 面 有 一 些 很 容易 过 滤 
掉 的 噪点 ， 那 么 你 可 以 在 这 里 增加 一 些 步 又 来 处 理 它们 。 



















































































renameFiles 把 所 有 的 图 片 文件 和 .box 文件 的 文件 名 改变 成 Tesseract 需要 的 形式 
(fileNumber 是 文件 序号 ， 用 来 区 别 每 个 文件 ) : 














e <languageName>.<fontName>.exp<fileNumber>.box 


e <languageName>.<fontName>.exp<fileNumber>.tiff 


extractUnicode 函数 会 检查 所 有 已 创建 的 box 文件 ， 确 定 要 训练 的 字符 集 范围 。 抽 取出 的 
Unicode 会 告诉 你 一 共 找 到 了 多 少 个 不 重复 的 字符 ， 这 也 是 一 个 查询 字符 的 好 方法 ， 如 果 
你 漏 了 字符 可 以 用 这 个 结果 快速 排查 。 


























之 后 的 三 个 函数 ，runShapeClustering、runMfTraining 和 runCtTraining 分 别 用 来 创建 
文件 shapetable、pfftable 和 normproto。 它 们 会 生成 每 个 字符 的 几何 和 形状 信息 ， 也 为 
Tesseract 提供 计算 字符 若干 可 能 结果 的 概率 统计 信息 。 


最 后 ，Tesseract 会 用 之 前 设置 的 语言 名 称 对 数据 文件 夹 编译 出 的 每 个 文件 进行 重 命 名 ( 例 
如 ，shapetable 被 重 命 名 为 eng.shapetable) ， 然 后 把 所 有 的 文件 编译 到 最 终 的 训练 文件 eng. 
traineddata 中 。 














你 需要 动手 完成 的 唯一 步骤 ， 就 是 用 下 面 的 Linux 和 Mac 命令 行 把 刚刚 创建 的 eng. 
traineddata 文件 复制 到 tessdata 文件 夹 里 ，Windows 系统 类 似 : 





$cp /path/to/data/eng.traineddata STESSDATA PREFIX/tessdata 


经 过 这 些 步 又 之 后 ， 你 就 可 以 用 这 些 Tesseract 训练 过 的 验证 码 来 识别 新 图 片 了 。 现 在 我 们 
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用 Tesseract 重新 读 取 之 前 的 示例 验证 码 图 片 ， 就 可 以 得 到 正确 的 结果 了 : 











$ tesseract captchaExample.png output;cat output.txt 
4MmC3 


Mr 





成 功 啦 ! 相 比 之 前 的 识别 结果 “4M\,,,C<3”， 这 个 识别 结果 有 明显 的 改善 。 





前 面 的 内 容 只 是 对 Tesseract 库 强 大 的 字体 训练 和 识别 能 力 的 一 个 简略 概述 。 如 果 你 对 
Tesseract 的 其 他 训练 方法 感 兴趣 ， 甚 至 打算 建立 自己 的 验证 码 训练 文件 库 ， 或 者 想 和 全 世 
界 的 Tesseract 爱好 者 分 享 自己 对 一 种 新 字体 的 识别 成 果 ， 那 么 我 推荐 你 仔细 阅读 Tesseract 
的 文档 (https://github.com/tesseract-ocr/tesseract/wiki ) 。 


11.4 获取 验证 码 提交 答案 


许多 流行 的 内 容 管理 系统 即使 加 了 验证 码 模 块 ， 其 众所周知 的 注册 页 面 也 经 常会 遭 到 网 络 
机 器 人 的 垃圾 注册 。 比 如 在 http://pythonscraping.com/ 上 ， 即 使 加 了 验证 码 (的 确 也 很 容易 
识别 ) 也 不 能 让 “ 注 涌 澎 涯 ”的 垃圾 注册 有 所 缓解 。 





















































那么 ， 这 些 网 络 机 器 人 究 竞 是 怎么 做 的 呢 ?” 既 然 我 们 已 经 可 以 成 功 地 识别 出 保存 在 电脑 上 
的 验证 码 了 ， 那 么 如 何 才能 实现 一 个 全 能 的 网 络 机 器 人 呢 ? 下 面 的 示例 将 综合 前 面 几 章 的 
内 容 来 告诉 你 答案 。 如 果 你 还 没准 备 好 ， 请 至 少 浏 览 一 下 前 儿童 关于 表单 提交 和 文件 下 载 
的 相关 内 容 。 


大 多 数 网 站 生成 的 验证 码 图 片 都 具有 以 下 属 | 


。 它们 是 服务 器 端的 程序 动态 生成 的 图 片 。 验 证 码 图 片 的 src 属性 可 能 和 普通 图 片 不 太一 
样 ， 比 如 <img src="WebForm.aspx?id=8AP85CQKE9TIJ">， 但 是 可 以 和 其 他 图 片 一 样 进行 
下 载 和 处 理 。 

。 图 片 的 答案 存储 在 服务 器 端的 数据 库 里 。 

。 很 多 验证 码 都 有 时 间 限 制 ， 如 果 你 太 长 时 间 没 解决 就 会 失效 。 虽 然 这 对 网 络 机 器 人 来 说 

不 是 什么 问题 ， 但 是 如 果 你 想 保留 验证 码 的 答案 一 会 儿 再 使 用 ， 或 者 想 通过 一 些 方法 延 

长 验证 码 的 有 效 时 限 ， 可 能 很 难 成 功 。 
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常用 的 处 理 方法 就 是 ， 首 先 把 验证 码 图 片 下 载 到 硬盘 里 ， 清 理 干净 ， 然 后 用 Tesseract 处 理 
图 片 ， 最 后 返回 符合 网 站 要 求 的 识别 结果 。 











我 在 http://pythonscraping.com/humans-only 创建 了 一 个 带 验 证 码 的 评论 表单 ， 演 示 如 何 用 
网 络 机 器 人 破解 验证 码 。 程 序 如 下 所 示 : 





from urllib.request import urlretrieve 
from urllib.request import urlopen 
from bs4 import BeautifulSoup 

import subprocess 
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import requests 
from PIL import Image 
from PIL import ImageOps 


def cleanImage(imagePath): 
image - Image.open(imagePath) 
image - image.point(lambda x: 0 if x«143 else 255) 
borderImage = ImageOps.expand(image, border-20, fill-'white') 
borderImage.save(imagePath) 


html = urlopen("http://www.pythonscraping.com/humans-only") 

bsObj = BeautifulSoup(html) 

# 收集 需要 处 理 的 表单 数据 (包括 验证 码 和 输入 字段 ) 

imagelocation = bsObj.find("img", ("title": "Image CAPTCHA"J)["src" 
formBuildId = bsObj.find("input", ("name":"form build id"J)["value"] 


captchaSid = bsObj.find("input", (["name":"captcha sid"J)["value"] 


captchaToken = bsObj.find("input", ["name":"captcha token"j)["value"] 














captchaUrl = "http://pythonscraping.com"-*imageLocation 

urlretrieve(captchaUrl, "captcha.jpg") 

cleanImage("captcha.jpg") 

p = subprocess.Popen(["tesseract", "captcha.jpg", "captcha"],stdout- 
subprocess.PIPE,stderr-subprocess.PIPE) 

p.wait() 

f = open("captcha.txt", "r") 


# 清理 识别 结果 中 的 空格 和 换行 符 
captchaResponse = f.read().replace(" ", "").replace("An", "") 
print("Captcha solution attempt: "«captchaResponse) 





if len(captchaResponse) -- 5: 
params = ("captcha token":captchaToken, "captcha sid":captchaSid, 
"form id":"comment node page form", "form build id": formBuildId, 
"captcha response":captchaResponse, "name":"Ryan Mitchell", 
"subject": "I come to seek the Grail", 
"comment body[und][0][value]": 
"...and I am definitely not a bot") 
r = requests.post("http://www.pythonscraping.com/comment/reply/10", 
data-params) 
responseObj - BeautifulSoup(r.text) 


if responseObj.find("div", ("class":"messages")) is not None: 
print(responseObj.find("div", ("class":"messages"]).get text()) 
else: 


print("There was a problem reading the CAPTCHA correctly!") 





值得 广 意 的 是 ， 有 两 种 异常 情况 会 导致 这 个 程序 运行 失败 。 第 一 种 情况 是 ， 如 果 Tesseract 
从 验证 码 图 片 中 识别 的 结果 不 是 五 个 字符 〈 因 为 训练 样本 中 验证 码 的 所 有 有 效 答案 都 必须 
是 五 个 字符 )， 结 果 不 会 被 提交 ， 程序 失败 。 第 二 种 情况 是 虽然 识别 的 结果 是 五 个 字符 ， 
被 提交 到 了 表单 ， 但 是 服务 器 对 结果 不 认可 ,程序 仍然 失败 。 在 实际 运行 过 程 中 ， 第 一 种 
情况 发 生 的 可 能 性 大 约 为 50%， 发 生 时 程序 不 会 向 表单 提交 ， 程 序 直 接 结束 并 提示 验证 码 
识别 错误 。 第 二 种 异常 情况 发 生 的 概率 约 为 20%， 五 个 字符 都 对 的 概率 约 是 30% (每 个 字 
母 的 识别 正确 率 大 约 是 80%，5 个 字符 都 识别 正确 的 总 概率 是 32.8%)。 
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虽然 这 个 程序 的 识别 效果 好 像 很 差 ， 但 是 用 户 尝试 填写 验证 码 的 次 数 并 没有 限制 ， 而 且 大 
此 ， 如 果 有 一 个 识别 结果 提 

















多 数 错误 的 识别 结果 都 可 以 在 提交 到 表单 之 前 就 被 拦 下 来 。 因 








交 到 表单 并 传送 到 服务 器 ， 那 么 验证 码 很 可 能 就 是 正确 的 。 如 果 这 样 解释 














F 不 能 让 你 信 


服 ， 请 记 住 这 些 都 只 是 简单 的 猜测 ， 准 确 率 只 有 0.0000001%。 ”程序 只 要 运行 三 到 四 次 就 
可 以 识别 出 一 个 验证 码 ， 比 简单 的 猜测 9 亿 次 还 是 要 节省 很 多 时 间 的 ! 
































132832 种 可 能 ， 因 此 简单 猜测 的 准确 率 只 有 0.000000196,  F— gH 























i! 


的 9 亿 次 就 是 这 个 道理 。 


注 3: 验证 码 的 字符 集 是 26 个 大 写字 母 ，26 个 小 写字 母 ，10 个 数字 ，5 个 字符 一 共有 52 的 5 次 方 ， 即 916 


一 一 译 者 注 
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避 开 采集 陷阱 








在 采集 网 站 的 时 候 ， 还 会 遇 到 一 些 比 数据 显示 在 浏览 右上 却 抓 取 不 出 来 更 令 人 诅 丧 的 事 
情 。 也 许 是 向 服务 器 提交 自 认为 已 经 处 理 得 很 好 的 表单 却 被 拒绝 ， 也 许 是 自己 的 IP 地 址 不 
知道 什么 原因 直接 被 网 站 封杀 ， 无 法 继续 访问 。 


这 是 由 于 一 些 堪 称 最 复杂 的 bug 还 没有 解决 ， 不 仅 因为 这 些 bug 让 人 意 想不到 (程序 在 一 
个 网 站 上 可 以 正常 使 用 ,但 在 另 一 个 看 起 来 完全 一 样 的 网 站 上 却 用 不 了 )， 还 因为 那些 网 站 
有 意 不 让 座 虫 抓 取信 息 。 网 站 已 经 把 你 定性 为 一 个 网 络 机 器 人 直接 拒绝 ， 你 无 法 找 出 原因 。 






































在 这 本 书 里 ,我 已 经 写 了 一 堆 方法 来 处 理 网 站 抓 取 的 难点 (提交 表单 ， 抽 取 和 清理 数据 ， 
执行 JavaScript， 等 等 )。 这 一 章 将 继续 介绍 更 多 的 知识 点 ， 尽 管 属于 不 同 的 主题 (HTTP 
headers, CSS fll HTML 表单 等 )， 但 这 些 知识 点 的 共同 目的 都 是 为 了 克服 网 站 阻止 自动 采 
集 这 个 障碍 。 





即使 你 觉得 下 面 这 些 内 容 现 在 对 你 没什么 用 ， 我 还 是 强烈 建议 你 至 少 浏 览 一 下 。 也 许 有 一 
天 ， 这 一 章 的 内 容 会 帮 你 解决 一 个 非常 复杂 的 bug， 或 者 防止 那 类 bug RÆ. 





12.1 道德 规范 


在 本 书 前 几 章 里 ， 我 介绍 过 网 络 数据 采集 行为 的 法 律 灰 色 地 带 ， 以 及 网 络 数据 采集 涉及 的 
一 些 道德 规范 。 说 实话 ， 从 道德 角度 上 说 ， 这 一 章 是 我 在 写 这 本 书 时 感到 最 困难 的 一 章 。 
我 自己 的 网 站 已 经 被 网 络 机 器 人 、 垃 圾 邮件 生成 恬 、 网 络 疏 虫 和 其 他 各 种 不 受 欢迎 的 虚拟 
访问 者 骚扰 过 很 多 次 了 ， 你 的 网 站 可 能 也 是 一 样 。 既 然 如 此 ， 我 为 什么 还 要 在 这 一 章 教 人 
们 建立 更 强大 的 网 络 机 器 人 呢 ? 
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有 几 个 很 重要 的 理由 促使 我 写 这 一 章 。 


。 在 采集 那些 不 想 被 采集 的 网 站 时 ， 甚 实 存在 一 些 非常 符合 道德 和 法 律 规 范 的 理由 。 比 如 
我 之 前 的 工作 就 是 做 网 络 展 虫 ， 我 曾 做 过 一 个 自动 信息 收集 器 ， 从 未 经 许可 的 网 站 上 自 
动 收集 客户 的 名 称 、 地 址 、 电 话 号 码 和 其 他 个 人 信息 , 然后 把 采集 的 信息 提交 到 网 站 上 ， 
让 服务 器 删除 这 些 客户 信息 。 为 了 避免 竞争 , 这 些 网 站 都 会 对 网 络 爬 虫 严 防 死守 。 但 是 ， 
我 的 工作 要 确保 公司 的 客户 们 都 匿名 〈 这 些 人 都 是 家 庭 暴力 受害 者 ， 或 者 因 其 他 正当 理 
由 想 保持 低调 的 人 )， 这 为 网 络 数据 采集 工作 创造 了 极其 合理 的 条 件 ， 我 很 高 兴 自 己 有 
能 力 从 事 这 项 工作 。 

。 虽然 不 太 可 能 建立 一 个 完全 “防护 虫 ” 的 网 站 (最 起 码 得 让 合法 的 用 户 可 以 方便 地 访问 
网 站 )， 但 我 还 是 希望 本 章 的 内 容 可 以 帮助 人 们 保护 自己 的 网 站 不 被 恶意 攻击 。 在 这 一 
章 的 内 容 里 ， 我 将 指出 每 一 种 网 络 数 据 采 集 技术 的 缺点 ， 你 可 以 利用 这 些 缺 点 保护 自己 
的 网 站 。 其 实 ， 大 多 数 网 络 机 器 人 一 开始 都 只 能 做 一 些 宽泛 的 信息 和 漏洞 扫描 ， 用 本 章 
介绍 的 几 个 简单 技术 就 可 以 挡住 9996 的 机 器 人 。 但 是 ， 它 们 进化 的 速度 非常 快 ， 最 好 
时 刻 准 备 迎 接 新 的 攻击 。 

。 和 大 多 数 程序 员 一 样 ， 我 从 来 不 相信 禁止 某 一 类 信息 的 传播 就 可 以 让 世界 变 得 更 和 谐 。 


学 习 这 一 章 的 内 容 时 ， 和 希望 你 牢记 这 里 演示 的 许多 程序 和 介绍 的 技术 都 不 应 该 在 任何 一 
个 网 站 上 使 用 。 不 仅 因 为 这 么 做 对 网 站 不 好 ， 而 且 你 可 能 会 收 到 一 个 停止 并 终止 警告 信 
(cease-and-desist letter) ， 甚 至 还 有 可 能 发 生 更 糟糕 的 事情 。 不 过 我 也 不 想 每 次 学 习 新 技术 
时 都 警告 你 一 下 。 好 吧 ， 对 本 书后 面 的 内 容 一 一 如 哲学 家 阿 甘 曾 说 的 一 一 “我 想 说 的 就 是 


这 些 ” (That's all I have to say about that), 


12.2 让 网 络 机 器 人 看 起 来 像 人 类 用 户 


网 站 防 采集 的 前 提 就 是 要 正确 地 区 分 人 类 访问 用 户 和 网 络 机 器 人 。 虽 然 网 站 可 以 使 用 很 多 
识别 技术 (比如 验证 码 ) 来 防止 肘 虫 ， 但 还 是 有 一 些 十 分 简单 的 方法 ， 可 以 让 你 的 网 络 机 
器 人 看 起 来 更 像 人 类 访问 用 户 。 


12.2.1 修改 请 求 头 

在 第 9 章 里 ， 我 们 曾经 用 requests 模块 处 理 网 站 的 表单 。requests 模块 还 是 一 个 设置 请 求 
头 的 利器 。HTTP 的 请 求 头 是 在 你 每 次 向 网 络 服务 器 发 送 请 求 时 ， 传 递 的 一 组 属性 和 配置 
信息 。HTTP 定义 了 十 几 种 古怪 的 请 求 头 类 型 ， 不 过 大 多 数 都 不 常用 。 只 有 下 面 的 七 个 字 
段 被 大 多 数 浏览 器 用 来 初始 化 所 有 网 络 请 求 ( 表 中 信息 是 我 自己 浏览 器 的 数据 )。 


































































































属 性 内 容 
Host https://www.google.com/ 
Connection keep-alive 
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(5x) 





E 性 内 28 
Accept text/html, application/xhtml-xml, application/xml;q-0.9, image/webp, */*;q-0.8 
User -Agent Mozilla/5.0 (Macintosh; Intel Mac OS X 10 9 5) AppleWebKit/537.36 (KHTML, like 


Gecko) Chrome/39.0.2171.95 Safari/537.36 
Referrer https://www.google.com/ 
Accept-Encoding gzip, deflate, sdch 


Accept-Language en-US,en;q=0.8 











经 典 的 Python 爬虫 在 使 用 urLLib 标准 库 时 ， 都 会 发 送 如 下 的 请 求 头 : 








E! Es 内 * 
Accept-Encoding identity 
User -Agent Python-urllib/3.4 


如 果 你 是 一 个 防范 扑 虫 的 网 站 管理 员 ， 你 会 让 哪个 请 求 头 访问 你 的 网 站 呢 ? 





安装 Requests 


我 们 在 第 9 章 已 经 安装 过 Requests 模块 了 ， 如 果 你 还 没有 装 ， 可 以 在 模块 的 网 站 上 找 
到 下 载 链接 (http://docs.python-requests.org/en/latest/user/instal/) 和 安装 方法 ， 或 者 用 


r> Ak 


任意 第 三 方 Python 模块 安装 器 进行 安装 。 











请 求 头 可 以 通过 requests 模块 进行 自 定义 。https://www.whatismybrowser.com/ 网 站 就 是 一 
个 非常 棒 的 网 站 ， 可 以 让 服务 器 测试 浏览 器 的 属性 。 我 们 用 下 面 的 程序 来 采集 这 个 网 站 的 
信息 ， 验 证 我 们 浏览 器 的 cookie 设置 : 

















import requests 
from bs4 import BeautifulSoup 


session - requests.Session() 
headers - ("User-Agent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10 9 5) 
AppleWebKit 537.36 (KHTML, like Gecko) Chrome", 
"Accept" :"text/html,application/xhtml4xml,application/xml; 
q-0.9,image/webp,*/*;q-0.8") 
url = "https://www.whatismybrowser.com/ 
developers/what-http-headers-is-my-browser-sending" 


req = session.get(url, headers-headers) 


bsObj = BeautifulSoup(req.text) 
print(bsObj.find("table",(["class":"table-striped"]).get text) 


程序 输出 结果 中 的 请 求 头 应 该 和 程序 中 设置 的 headers 是 一 样 的 。 





虽然 网 站 可 能 会 对 HTTP 请 求 头 的 每 个 属性 进行 “是 否 具 有 人 性 ”的 检查 ， 但 是 我 发 现 通 
常 真正 重要 的 参数 就 是 User-Agent。 无 论 你 在 做 什么 项 目 ， 一 定 要 记得 把 User-Agent 属性 
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设置 成 不 容易 引起 怀疑 的 内 容 ， 不 要 用 Python-urLLib/3.4。 另 外 ， 如 果 你 正在 处 理 一 个 警 
觉 性 非常 高 的 网 站 ， 就 要 注意 那些 经 常用 却 很 少 检查 的 请 求 头 ， 比 如 Accept-Language 属 
性 ， 也 许 它 正 是 那个 网 站 判断 你 是 个 人 类 访问 者 的 关键 。 


























请 求 头 会 改变 你 观看 网 络 世界 的 方式 
假设 你 想 为 一 个 机 器 学 习 的 研究 项 目 写 一 个 语言 翻译 机 ， 却 没有 大 量 的 翻译 文本 来 
测试 它 的 效果 。 很 多 大 型 网 站 都 会 为 同样 的 内 容 提 供 不 同 的 语言 翻译 ， 根 据 请 求 
头 的 参数 响应 网 站 不 同 的 语言 版 本 。 因 此 ， 你 只 要 简单 地 把 请 求 头 属性 从 Accept- 
Language:en-US 修改 成 Accept-Language:fr， 就 可 以 从 网 站 上 获得 “Bonjour”( 法 语 ， 
你 好 ) 这 些 数据 来 改善 翻译 机 的 翻译 效果 了 (大 型 跨国 企业 通常 都 是 好 的 采集 对 象 ) 。 
请 求 头 还 可 以 让 网 站 改变 内 容 的 布局 样式 。 例 如 ， 用 移动 设备 浏览 网 站 时 ， 通 常会 看 
到 一 个 没有 广告 、Flash 以 及 其 他 干扰 的 简化 的 网 站 版 本 。 因 此 ， 把 你 的 请 求 头 User- 
Agent 改 成 下 面 这 样 ， 就 可 以 看 到 一 个 更 容易 采集 的 网 站 了 1! 

User-Agent:Mozilla/5.0 (iPhone; CPU iPhone OS 7 1. 2 like Mac OS X) 


AppleWebKit/537.51.2 (KHTML, like Gecko) Version/7.0 Mobile/11D257 
Safari/90537.53 











12.2.2 ”处理 cookie 


虽然 cookie 是 一 把 双 刃 剑 ， 但 正确 地 处 理 cookie 可 以 避免 许多 采集 问题 。 网 站 会 用 cookie 
跟踪 你 的 访问 过 程 ， 如 果 发 现 了 扑 虫 异常 行为 就 会 中 断 你 的 访问 ， 比 如 特别 快速 地 填写 表 
单 ， 或 者 浏览 大 量 页 面 。 虽 然 这 些 行为 可 以 通过 关闭 并 重新 连接 或 者 改变 IP 地 址 来 伪装 
(更 多 信息 请 参见 第 14 章 ) ， 但 是 如 果 cookie 暴露 了 你 的 身份 ， 再 多 努力 也 是 白费 。 
































在 采集 一 些 网 站 时 cookie 是 不 可 或 缺 的 。 在 第 9 章 的 例子 中 曾经 介绍 过 ， 在 一 个 网 站 上 持 
续 地 保持 登录 状态 ， 需 要 你 在 多 个 页 面 中 保存 一 个 cookie。 一 些 网 站 不 要 求 在 每 次 登录 时 
都 获得 一 个 新 cookie， 只 要 保存 一 个 旧 的 “已 登录 ”的 cookie 就 可 以 访问 网 站 。 























如 果 你 在 采集 一 个 或 者 儿 个 目标 网 站 ， 我 建议 你 检查 这 些 网 站 生成 的 cookie， 然 后 想 想 
哪 一 个 cookie 是 念 虫 需要 处 理 的 。 有 一 些 浏览 器 插件 可 以 为 你 显示 访问 网 站 和 离开 网 站 
时 cookie 是 如 何 设 置 的 。EditThisCookie (http:/www.editthiscookie.com/) 就 是 我 最 喜欢 的 
Chrome 浏览 器 插件 之 一 。 

















要 获得 cookie 的 更 多 信息 ， 请 查看 9.5 市 ， 里 面 的 示例 代码 介绍 了 使 用 requests 模块 处 理 
cookie 的 过 程 。 当 然 ， 因 为 requests 模块 不 能 执行 JavaScript， 所 以 它 不 能 处 理 很 多 新 式 
的 跟踪 软件 生成 的 cookie， 比 如 Google Analytics， 只 有 当 客 户 端 脚 本 执行 后 才 设 置 cookie 
(或 者 在 用 户 浏览 页 面 时 基于 网 页 事件 产生 cookie， 比 如 点 击 按钮 )。 为 了 处 理 这 些 动 作 ， 
你 需要 用 Selenium 和 PhantomJS 包 (基本 的 安装 和 用 法 在 第 10 章 已 经 介绍 过 )。 
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你 可 以 对 任意 网 站 (本 例 用 的 是 http://pythonscraping.com) 调用 webdriver 的 get_cookie() 


方法 来 查看 cookie: 


from selenium import webdriver 

driver = webdriver.PhantomJS(executable path-'«Path to Phantom JS»') 
driver.get("http://pythonscraping.com") 

driver.implicitly wait(1) 

print(driver.get cookies()) 





这 样 就 可 以 获得 一 个 非常 典型 的 Google Analytics 的 cookie 列表 : 
[f'value': '1', 'httponly': False, 'name': ' gat', 'path': '/', 'expi 
ry': 1422806785, 'expires': 'Sun, 01 Feb 2015 16:06:25 GMT', 'secure' 
: False, 'domain': '.pythonscraping.com'j, ('value': 'GA1.2.161952506 
2.1422806186', 'httponly': False, 'name': ' ga', 'path': '/', 'expiry 
': 1485878185, 'expires': 'Tue, 31 Jan 2017 15:56:25 GMT', 'secure': 
False, 'domain': '.pythonscraping.com']), ['value': '1', 'httponly': F 


alse, 'name': 'has js', 'path': '/', 'expiry': 1485878185, 'expires': 
'Tue, 31 Jan 2017 15:56:25 GMT', 'secure': False, 'domain': 'pythons 
craping.com'j] 


fi xh AT DA Wi JH delete cookie(), add cookie() 和 delete all cookies() 方法 来 处 理 











cookie。 另 外 ， 还 可 以 保存 cookie LA d cft AERE. TEATR T Anf tax 26 


























国 数组 合 在 一 起 : 
from selenium import webdriver 


driver = webdriver.PhantomJS(executable path-'«Path to Phantom JS»') 
driver.get("http://pythonscraping.com") 

driver.implicitly wait(1) 

print(driver.get cookies()) 


savedCookies - driver.get cookies() 


driver2 = webdriver.PhantomJS(executable path-'«Path to Phantom JS»') 
driver2.get("http://pythonscraping.com") 
driver2.delete all cookies() 
for cookie in savedCookies: 
driver2.add cookie(cookie) 


driver2.get("http://pythonscraping.com") 
driver.implicitly wait(1) 
print(driver2.get cookies()) 


在 这 个 例子 中 ， 第 一 个 webdriver 获得 了 一 个 网 站 ， 打 印 cookie 并 把 它们 保存 到 变量 





| 


mi 





savedCookies 里 。 第 二 个 webdriver 加 载 同 一 个 网 站 (技术 提示 : 必须 首先 加 载 网 站 ， 这 
FE Selenium 才能 知道 cookie 属于 哪个 网 站 ， 即 使 加 载 网 站 的 行为 对 我 们 没 任何 用 处 ) ， 删 











除 所 有 的 cookie， 然 后 替换 成 第 一 个 webdriver 得 到 的 cookie。 当 再 次 加 载 这 个 页 下 











| 时， 两 








组 cookie 的 时 间 戳 、 源 代码 和 其 他 信息 应 该 完全 一 致 。 从 Google Analytics 的 角度 看 ， 第 


二 个 webdriver 现在 和 第 一 个 webdriver 完全 一 样 。 
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12.2.3 ”时间 就 是 一 切 
有 一 些 防 护 措 施 完备 的 网 站 可 能 会 阻止 你 快速 地 提交 表单 ， 或 者 快速 地 与 网 站 进行 交互 。 
即使 没有 这 些 安全 措施 ， 用 一 个 比 普通 人 快 很 多 的 速度 从 一 个 网 站 下 载 大 量 信息 也 可 能 让 
自己 被 网 站 封杀 。 


因此 ， 虽然 多 线程 程序 可 能 是 一 个 快速 加 载 页 面 的 好 办 法 一 一 让 你 在 一 个 线程 中 处 理 数 据 
并 在 另 一 个 线程 中 加 载 页 面 一 一 但 是 这 对 编写 好 的 仆 虫 来 说 依然 是 一 个 翁 怖 的 策略 。 还 是 
应 该 尽量 保证 一 次 加 载 页 面 加 载 且 数据 请 求 最 小 化 。 如 果 条 件 允 许 ， 尽 量 为 每 个 页 面 访问 
增加 一 点 儿 时 间 间 隔 ， 即 使 你 要 增加 一 行 代码 : 

















time.sleep(3) 





虽然 网 络 数据 采集 经 常会 为 了 获取 数据 而 破坏 规则 和 冲破 底线 ， 但 是 合理 控制 速度 是 你 不 
应 该 破坏 的 规则 。 这 不 仅 是 因为 过 度 消耗 别人 的 服务 器 资源 会 让 你 置身 于 非法 境地 ， 而 且 
你 这 么 做 可 能 会 把 一 个 小 型 网 站 拖 震 甚至 下 线 。 拖 震 网 站 是 一 件 不 道德 的 事情 : 是 彻 头 彻 
尾 的 错误 。 所 以 请 控制 你 的 采集 速度 ! 


12.3 ”常见 表单 安全 措施 


许多 像 Litmus 之 类 的 测试 工具 已 经 用 了 很 多 年 了 ， 现 在 仍 用 于 区 分 网 络 仆 虫 和 使 用 浏览 器 
的 人 类 访问 者 ， 这 类 手段 都 取得 了 不 同 程度 的 效果 。 虽 然 网 络 机 器 人 下 载 一 些 公开 的 文章 
和 博文 并 不 是 什么 大 事 ， 但 是 如 果 网 络 机 器 人 在 你 的 网 站 上 创造 了 几 千 个 帐号 并 开始 向 所 
有 用 户 发 送 垃圾 邮件 ， 就 是 一 个 大 问题 了 。 网 络 表单 ， 尤 其 是 那些 用 于 账号 创建 和 登录 的 
网 站 ， 如 果 被 机 器 人 肆意 地 滥用 ， 网 站 的 安全 和 流量 费用 就 会 面临 严重 威胁 ， 因 此 努力 限 
制 网 站 的 接 入 是 最 符合 许多 网 站 所 有 者 的 利益 的 至少 他 们 这 么 认为 )。 


这 些 集中 在 表单 和 登录 环 闻 上 的 反 机 器 人 安全 措施 ， 对 网 络 稚 虫 来 说 确实 是 严重 的 挑战 。 


当 你 为 那些 表单 创建 自动 化 机 器 人 时 ， 你 会 遇 到 的 安全 措施 不 止 这 些 。 关 于 处 理 表 单 的 更 
多 信息 ， 请 参考 第 11 章 关 于 处 理 验证 码 和 图 片 处 理 的 内 容 ， 以 及 第 14 章 关 于 请 求 头 和 IP 
地 址 处 理 的 内 容 。 








































































































12.3.4 隐 含 输入 字段 值 

TE HTML 表单 中 ,“ 隐 含 ” 字 上段 可 以 让 字段 的 值 对 浏览 器 可 见 ， 但 是 对 用 户 不 可 见 (除非 
看 网 页 源 代码 )。 随 着 越 来 越 多 的 网 站 开始 用 cookie 存储 状态 变量 来 管理 用 户 状 态 ， 在 找 
到 另 一 个 最 佳 用 途 之 前 ， 隐 含 字段 主要 用 于 阻止 假 虫 自动 提交 表单 。 



































图 12-1 显示 的 例子 就 是 Facebook 登录 页 面 上 的 隐 仿 字段。 虽然 表单 里 只 有 三 个 可 见 字段 
(username, password 和 一 个 确认 按钮 )， 但 是 在 源 代码 里 表单 会 向 服务 器 传送 大 量 的 信息 。 
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Q D) |Elements | Network Sources Timeline Profiles Resources Audits Console EditThisCookie 





><a class-"lfloat _ohe" href-"/" title-"Go to Facebook Home"»..«/a» 
vw «div class-"menu login container rfloat  ohf"» 
w «form id-"login form" action-"https://www. facebook.com/login.php?login attempt-1" method="post" onsubmit-"retu 
«input type="hidden" name-"lsd" value-"AVoG5ZxZ" autocomplete-"off"» 
vw «table cellspacing-"0" role-"presentation"» 
v <tbody> 
<tr>-</tr> 
> <tr>-</tr> 
> <tr>-</tr> 
</tbody> 
</table> 
<input type="hidden" autocomplete-"off" name-"timezone" value="300" id-"u 0 m"- 
«input type="hidden" name-"lgnrnd" value-"072721 xhYS"» 
«input type="hidden" id-"lgnjs" name-"lgnjs" value-"1414942041"» 
«input type="hidden" autocomplete-"off" id-"locale" name-"locale" value-"en US"» 
«input type="hidden" name-"qsstamp" value= 
"WitbNywxNCwWONyw1NCw3MCwANCwxMTE SMTMwLDEOMSwxNTY sMTYA4LDESNywyMDMsMj ABLDIxNSwyMj AsMj I3LDIzNiwyNjUsMj cyLDI30Cw: 
«/form» 
</div> 











图 12-1; Facebook 登录 页 面 上 的 隐 含 字段 


用 隐 含 字段 阻止 网 络 数据 采集 的 方式 主要 有 两 种 。 第 一 种 是 表单 页 面 上 的 一 个 字段 可 以 用 
服务 器 生成 的 随机 变量 表示 。 如 果 提 交 时 这 个 值 不 在 表单 处 理 页 面 上 ， 服 务 器 就 有 理由 认 
为 这 个 提交 不 是 从 原始 表单 页 面 上 提交 的 ， 而 是 由 一 个 网 络 机 器 人 直接 提交 到 表单 处 理 页 
是 的 。 绕 开 这 个 问题 的 最 佳 方法 就 是 ， 首 先 采 集 表单 所 在 页 面 上 生成 的 随机 变量 ， 然 后 再 
提交 到 表单 处 理 页 画 


^U XE "SERE" (honey pot) 。 如 果 表 单 里 包含 一 个 具有 普通 名 称 的 隐 含 字段 (设置 
BEEE), kkn “HAH” (username) 或 “邮箱 地 址 ”(email address) ， 设 计 不 太 好 的 网 
络 机 器 人 往往 不 管 这 个 字段 是 不 是 对 用 户 可 见 ， 直 接 填写 这 个 字段 并 向 服务 器 提交 ， 这 样 
就 会 中 服务 器 的 蜜 饶 圈 套 。 服 务 器 会 把 所 有 隐 含 字段 的 真实 值 (或 者 与 表单 提交 页 面 的 默 
认 值 不 同 的 值 ) 都 忽略 ， 而 且 填 写 隐 含 字 段 的 访问 用 户 也 可 能 被 网 站 封杀 。 


总 之 ， 有 时 检查 表单 所 在 的 页 面 十 分 必要 ， 看 看 有 没有 遗漏 或 弄 错 一 些 服务 器 预先 设 定好 
的 隐 含 字段 〈 密 饶 圈 套 )。 如 果 你 看 到 一 些 隐 仿 字段， 通常 带 有 较 大 的 随机 字符 串 变 量 ， 
那么 很 可 能 网 络 服务 器 会 在 表单 提交 的 时 候 检查 它们 。 另 外 ， 还 有 其 他 一 些 检查 ， 用 来 保 
证 这 些 当前 生成 的 表单 变量 只 被 使 用 一 次 或 是 最 近 生 成 的 (这样 可 以 避免 变量 被 简单 地 存 
储 到 一 个 程序 中 反复 使 用 )。 


12.3.2 Rf ZE 
虽然 在 进行 网 络 数据 采集 时 用 CSS 属性 区 分 有 用 信息 和 无 用 信息 会 很 容易 (Ha. 33 
取 id 和 class 标签 获取 信息 )， 但 这 么 做 有 时 也 会 出 问题 。 如 果 网 络 表单 的 一 个 字段 i 
CSS 设置 成 对 用 户 不 可 见 ， 那 么 可 以 认为 普通 用 户 访问 网 站 的 时 候 不 能 填写 这 个 字段 ， 
为 它 没 有 显示 在 浏览 器 上 。 如 果 这 个 字段 被 填写 了 ， 就 可 能 是 机 器 人 干 的 ， 因 此 这 个 
会 失效 。 


这 种 手段 不 仅 可 以 应 用 在 网 站 的 表单 上 ， 还 可 以 应 用 在 链接 、 图 片 、 文 件 ， 以 及 一 些 可 以 
被 机 器 人 读 取 ,但 普通 用 户 在 浏览 器 上 却 看 不 到 的 任何 内 容 上 面 。 访 问 者 如 果 访 问 了 网 站 
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上 的 一 个 “ 隐 含 ” 内容， 就 会 触发 服务 器 脚本 封杀 这 个 用 户 的 IP 地 址 ， 把 这 个 用 户 踢 出 网 
站 ,或 者 采取 其 他 措施 禁止 这 个 用 户 接 入 网 站 。 实 际 上 ， 许 多 商业 模式 就 是 在 干 这 些 事情 。 














下 面 的 例子 所 用 的 网 页 在 http://pythonscraping.com/pages/itsatrap.html。 这 个 页 面包 含 了 两 
个 链接 ， 一 个 通过 CSS 隐 含 了 ， 另 一 个 是 可 见 的 。 另 外 ， 页 面 上 还 包括 两 个 隐 含 字段 : 











<htmL> 
<head> 
«title»A bot-proof form«e/title» 
</head> 
<style> 
body { 
overflow-x:hidden; 
} 
.customHidden { 
position:absolute; 
right:50000px; 
J 
</style> 
<body> 
<h2>A bot-proof form</h2> 
<a href= 
"http://pythonscraping.com/dontgohere" style="display:none;">Go here!</a> 
<a href="http://pythonscraping.com">Click me!</a> 
<form> 
<input type="hidden" name="phone" value="valueShouldNotBeModified"/><p/> 
<input type="text" name="email" class="customHidden" 
value="intentionallyBlank" /><p/> 
<input type="text" name="firstName"/><p/> 
<input type="text" name="lastName"/><p/> 
<input type="submit" value="Submit"/><p/> 
</form> 
</body> 
</html> 





三 个 元 素 通过 三 种 不 同 的 方式 对 用 户 隐藏 : 





。 第 一 个 链接 是 通过 简单 的 CSS 属性 设置 display:none 进行 隐藏 

。 电话 号 码 字段 name="phone" 是 一 个 隐 含 的 输入 字段 

e ia 用 地址 字段 nanez" emat U' 是 将 元 素 向 右 移动 50 000 像素 (应 该 会 超出 电脑 显示 器 的 
界 ) 并 隐藏 滚动 条 











因为 Selenium 可 以 获取 访问 页 面 的 内 容 ， 所 以 它 可 以 区 分 页 面 上 的 可 见 元 素 与 隐 仿 元素 。 
通过 is displayed() 可 以 判断 元 素 在 页 面 上 是 否 可 见 。 














例如 ， 下 面 的 代码 示例 就 是 获取 前 面 那个 页 面 的 内 容 ， 然 后 查找 隐 含 链接 和 隐 含 输入 字段 : 


from selenium import webdriver 
from selenium.webdriver.remote.webelement import WebElement 
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driver = webdriver.PhantomJS(executable path-'') 
driver.get("http://pythonscraping.com/pages/itsatrap.html") 
links = driver.find elements by tag name("a") 
for link in links: 
if not link.is displayed(): 
print("The link "«link.get attribute("href")*" is a trap") 


fields = driver.find elements by tag name("input") 
for field in fields: 
if not field.is displayed(): 
print("Do not change value of "«field.get attribute("name")) 





Selenium 抓 取出 了 每 个 隐 含 的 链接 和 字段 ， 结 果 如 下 所 示 : 


The link http://pythonscraping.com/dontgohere is a trap 
Do not change value of phone 
Do not change value of email 


虽然 你 不 太 可 能 会 去 访问 你 找到 的 那些 隐 仿 链接， 但 是 在 提交 前 ， 记 得 确认 一 下 那些 已 经 
在 表单 中 、 准 备 提 交 的 隐 含 字段 的 值 (或 者 让 Selenium 为 你 自动 提交 )。 


12.4 问题 检查 表 


这 一 章 介绍 的 大 量 知识 ， 其 实 和 这 本 书 一 样 ， 都 是 在 介绍 如 何 建立 一 个 更 像 人 而 不 是 更 像 
机 器 人 的 网 络 仆 虫 。 如 果 你 一 直 被 网 站 封杀 却 找 不 到 原因 ， 那 么 这 里 有 个 检查 列表 ， 可 以 
帮 你 诊断 一 下 问题 出 在 哪里 。 























。 首先 ， 如 果 你 从 网 络 服务 器 收 到 的 页 面 是 空白 的 ， 缺 少 信息 ， 或 其 遇 到 他 不 符合 你 预期 
的 情况 〈 或 者 不 是 你 在 浏览 器 上 看 到 的 内 容 )， 有 可 能 是 因为 网 站 创建 页 面 的 JavaScript 
执行 有 问题 。 可 以 看 看 第 10 章 内 容 。 

。 如 果 你 准备 向 网 站 提交 表单 或 发 出 POST 请 求 ， 记 得 检查 一 下 页 面 的 内 容 ， 看 看 你 想 提 
交 的 每 个 字段 是 不 是 都 已 经 填 好 ， 而 且 格 式 也 正确 。 用 Chrome 浏览 器 的 网 络 面 板 ( 快 
捷 键 F12 打开 开发 者 控制 台 ， 然 后 点 击 “Network” 即 可 看 到 ) 查看 发 送 到 网 站 的 POST 
命令 ， 确 认 你 的 每 个 参数 都 是 正确 的 。 

。 如 果 你 已 经 登录 网 站 却 不 能 保持 登录 状态 ,或 者 网 站 上 出 现 了 其 他 的 “登录 状态 ”异常 ， 
请 检查 你 的 cookie。 确 认 在 加 载 每 个 页 面 时 cookie 都 被 正确 调用 ， 而 且 你 的 cookie 在 
每 次 发 起 请 求 时 都 发 送 到 了 网 站 上 。 

。 如 果 你 在 客户 端 遇 到 了 HTTP 错误 ， 尤 其 是 403 禁止 访问 错误 ， 这 可 能 说 明 网 站 已 经 把 
你 的 IP 当 作 机 器 人 了 ， 不 再 接受 你 的 任何 请 求 。 你 要 么 等 待 你 的 IP 地 址 从 网 站 黑 名 单 
里 移 除 ， 要 么 就 换个 人 地址 (可 以 去 星巴克 上 网 , 或 者 看 看 第 14 章 的 内 容 ) 。 如 果 你 
确定 自己 并 没有 被 封杀 ， 那 么 再 检查 下 面 的 内 容 。 

4 确认 你 的 仆 虫 在 网 站 上 的 速度 不 是 特别 快 。 快 速 采 集 是 一 种 恶习 ， 会 对 网 管 的 服务 
器 造成 沉重 的 负担 ， 还 会 让 你 陷入 违法 境地 ， 也 是 卫 被 网 站 列 入 黑 名 单 的 首要 原因 。 
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给 你 的 疏 虫 增加 延迟 ， 让 它们 在 夜深人静 的 时 候 运 行 。 切 记 : 匆匆 忙 忙 写 程序 或 收 
集 数 据 都 是 拙劣 项 目 管理 的 表现 ， 应 该 提前 做 好 计划 ， 避 免 临 阵 慌 乱 。 

还 有 一 件 必 须 做 的 事情 : 修改 你 的 请 求 头 ! 有 些 网 站 会 封杀 任何 声称 自己 是 爬虫 的 
访问 者 。 如 果 你 不 确定 请 求 头 的 值 怎样 才 算 合适 ， 就 用 你 自己 浏览 器 的 请 求 头 吧 。 
确认 你 没有 点 击 或 访问 任何 人 类 用 户 通常 不 能 点 击 或 接 入 的 信息 (更 多 信息 请 查阅 
12.3.2 节 )。 

如 果 你 用 了 一 大 堆 复 杂 的 手段 才 接 入 网 站 , 考虑 联系 一 下 网 管 吧 , 告诉 他 们 你 的 目的 。 
试 试 发 邮件 到 webmaster@< 域名 > 或 admin@< 域名 >， 请 求 网 管 允 许 你 使 用 爬虫 采 
集 数 据 。 管 理 员 也 是 人 嘛 | 
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用 爬虫 测试 网 站 





当 研 发 一 个 技术 栈 较 大 的 网 络 项 目 时 ， 经 常 只 对 栈 底 (项 目 后 期 用 的 技术 ) 进行 一 些 常 规 
测试 。 目 前 大 多 数 编程 语言 (包括 Python) 都 有 一 些 测试 框架 ,但 是 网 站 的 前 端 通常 并 没 
有 自动 化 测试 ， 尽 管 前 端 才 是 整个 项 目 中 真正 与 用 户 零 距 离 接触 的 唯一 一 个 部 分 。 








部 分 原因 是 网 站 常常 是 不 同 标记 语言 和 编程 语言 的 大 杂烩 。 你 可 以 为 JavaScript 部 分 写 单 
元 测试 ， 但 没什么 用 ， 如 果 JavaScript 交互 的 HTML 内 容 改 变 了 ， 那 么 即使 JavaScript 可 
以 正常 地 运行 ， 也 不 能 完成 网 页 需要 的 动作 。 


网 站 前 端 测试 经 常 被 当 作 一 件 放 到 最 后 才 做 的 事情 ， 或 者 指派 给 低级 程序 员 去 做 ， 最 多 再 
给 他 们 一 个 检查 表 和 一 个 bug 跟踪 器 。 但 其 实 只 要 再 稍微 努 点 儿 力 ， 我 们 就 可 以 把 检查 表 
变 成 单元 测试 ， 用 网 络 谎 虫 代替 人 有 眼 进 行 测 试 。 


想象 有 一 个 由 测试 驱动 的 网 络 开发 项 目 。 每 天 进行 测试 以 保证 网 络 接 口 的 每 个 环 布 的 功能 
都 是 正常 的 。 每 当 有 新 的 特性 加 入 网 站 ， 或 者 一 个 元 素 的 位 置 改变 时 ， 就 执行 一 组 自动 化 
测试 。 在 这 一 章 里 ， 我 将 介绍 测试 的 基础 知识 ， 以 及 如 何 用 Python 网 络 慌 虫 测试 各 种 简单 
或 复杂 的 网 站 。 




















mht 
13.1 测试 简介 
如 果 你 以 前 从 来 没有 为 你 的 代码 写 过 测试 ， 那 么 现在 开始 再 合适 不 过 了 。 运 行 一 套 测试 方 
法 能 够 保证 你 的 代码 按照 既定 的 目标 运行 ， 不 仅 可 以 节约 你 的 时 间 ， 减 少 你 对 bug HW 
虑 ， 还 可 以 让 新 版 本 升级 变 得 更 加 简单 。 
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什么 是 单元 测试 


Ww 


测试 和 单元 测试 (unit test) 这 两 个 词 基 本 可 以 看 成 是 等 价 的 。 一 般 当 程序 员 们 说 起 “ 写 测 
” 时， 他们 真正 的 意思 就 是 “ 写 单元 调试 。 而 一 些 程序 员 提 到 写 单元 测试 时 ， 他 们 写 


的 就 是 某 一 种 测试 。 
虽然 不 同 公司 的 单元 测试 定义 和 实践 方法 大 相 径 庭 ， 但 是 一 个 单元 测试 通常 包含 以 下 
特点 。 





每 个 单元 测试 用 于 测试 一 个 零件 (component) 功能 的 一 个 方面 。 例 如 ， 如 果 从 银行 账 
户 取 出 一 笔 金 额 为 负数 的 美元 ， 那 么 单元 测试 就 要 对 负数 抛 出 适当 的 错误 信息 。 











通常 ， 一 个 零件 的 所 有 单元 测试 都 集成 在 同一 个 类 (class) 里 。 你 可 能 有 一 个 测试 是 针 
对 从 银行 账户 取出 一 笔 金额 为 负数 的 美元 ， 另 一 个 测试 是 针对 透支 银行 账户 行为 的 单元 
测试 。 

每 个 单元 测试 都 可 以 完全 独立 地 运行 ， 一 个 单元 测试 需要 的 所 有 启动 (setup) fI 
(teardown) 都 必须 通过 这 个 单元 测试 本 身 去 处 理 。 单 元 测试 不 能 对 其 他 测试 造成 干扰 ， 
而 且 不 论 按 何 种 顺序 排列 ， 它 们 都 必须 能 够 正常 地 运行 。 

每 个 单元 测试 通常 至 少 包含 一 个 断言 (assertion) 。 例 如 ， 一 个 单元 测试 可 以 判断 2+2 
的 和 是 4。 有 时 ， 一 个 单元 测试 也 许 只 包含 一 个 失败 状态 (failure state) 。 例 如 ， 有 这 样 
一 个 单元 测试 ， 如 果 一 个 异常 没有 被 抛 出 ， 测 试 失败 ， 如 果 每 个 异常 都 顺利 抛 出 ， 测 试 
通过 。 

单元 测试 与 生产 代码 是 分 离 的 。 虽 然 它 们 需要 导入 然后 在 待 测试 的 代码 中 使 用 ， 但 是 它 
们 一 般 被 保留 在 独立 的 类 和 目录 中 。 



































尽管 有 很 多 测试 类 型 可 以 大 写 特 写 ， 像 整体 测试 (integration test) 和 有 效 性 测试 
validation test) 等 ， 但 本 章 只 重点 介绍 单元 测试 。 这 不 仅仅 是 因为 单元 测试 在 当前 的 测试 



































( 
驱动 开发 中 十 分 主流 ， 还 因为 其 代码 长 度 和 灵活 性 使 它们 非常 适合 做 示例 。 另 外 Python H 
带 单 元 测试 标准 库 ， 我 们 下 一 市 就 来 介绍 它 。 


13.2 ”Python 单元 测试 


Python 的 单元 测试 模块 unittest， 所 有 标准 版 Python 安装 后 都 有 。 只 要 先导 入 模块 然后 
继承 unittest.TestCase 类 ， 就 可 以 实现 下 面 的 功能 : 


下 














为 每 个 单元 测试 的 开始 和 结束 提供 setUp 和 tearDown 函数 
提供 不 同类 型 的 “断言 ”语句 让 测试 成 功 或 失败 
把 所 有 以 test_ 开头 的 函数 当 作 单元 测试 运行 ， 名 略 不 带 test 的 函数 

















下 的 例子 演示 了 如 何 用 Python 实现 一 个 非常 简单 的 单元 测试 ， 测 试 2+2=4: 
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import unittest 


class TestAddition(unittest.TestCase): 


if o 


def 


def 


def 


name _ == ' main . 


setUp(self): 
print("Setting up the test") 


tearDown(self): 
print("Tearing down the test") 


test twoPlusTwo(self): 
total - 242 
self.assertEqual(4, total) 


1 M 


unittest.main() 


虽然 setUp 和 tearDown 函数 在 这 里 并 没有 实现 可 用 的 功能 ， 但 是 仍然 达到 了 演示 的 目的 。 
需要 注意 的 是 ， 这 两 个 函数 在 每 个 测试 的 开始 和 结束 都 会 运行 一 次 ， 而 不 是 把 类 中 所 有 测 


试 作为 一 





个 整体 在 开始 或 结束 时 各 运行 一 次 。 





测试 维基 百科 
将 Python 的 unittest 库 与 网 络 仆 虫 组 合 起 来 ， 就 可 以 实现 简单 的 网 站 前 端 功能 测试 ( 除 
了 JavaScript 测试 ， 后 面 我 们 会 介绍 )。 

















from urllib.request import urlopen 
from bs4 import BeautifulSoup 
import unittest 


class TestWikipedia(unittest.TestCase): 
bsObj = None 


f| 


def 


def 


def 


name _ == ' main . 


setUpClass(): 

global bsObj 

url = "http://en.wikipedia.org/wiki/Monty Python" 
bsObj = BeautifulSoup(urlopen(url)) 


test titleText(self): 

global bsObj 

pageTitle = bsObj.find("hi").get text() 
self.assertEqual("Monty Python", pageTitle) 


test contentExists(self): 

global bsObj 

content = bsObj.find("div",("id":"mw-content-text")) 
self.assertIsNotNone(content) 


1 LESS 


unittest.main() 








这 里 有 两 个 测试 : 第 一 个 是 测试 页 面 的 标题 是 否 为 “Monty Python”， 另 一 个 是 测试 页 面 是 
否 有 一 个 div 节点 id 属性 是 "mw-content-text"。 
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需要 注意 的 是 ， 这 个 页 面 的 内 容 只 加 载 一 











unittest 类 的 函数 setUpClass 来 实现 的 ， 这 个 函数 只 在 类 的 初始 化 阶段 运行 一 次 


测试 启动 时 都 运行 的 setup 函数 不 同 )。 
加 载 ， 我 们 可 以 一 次 性 采集 全 部 内 容 ， 供 多 个 测试 使 用 。 


虽然 一 次 只 测试 一 个 页 面 看 起 来 可 能 不 够 强大 ， 也 没什么 意思 ， 但 是 如 果 你 还 记得 第 3 
的 内 容 ， 就 可 以 轻松 地 创建 一 个 网 络 爬 虫 去 遍历 网 站 中 所 有 的 页 面 。 下 








把 网 络 谎 虫 和 一 个 向 页 面 内 容 添 加 断言 的 证 
有 很 多 方法 可 以 重复 执行 一 个 测试 ， 但 是 我 们 必须 对 即将 在 页 面 上 运行 

















次 ， 全 局 对 象 bs0bj 由 多 个 测试 共享 。 这 是 通过 
K (与 每 个 
用 setUpClass 代 赫 setUp 可 以 省 去 不 必要 的 页 下 














E 


看 我 们 来 看 看 ， 当 
元 测试 组 合 起 来 时 ， 会 发 生 什么 呢 ? 


的 所 有 测试 都 时 刻 


保持 谨慎 ， 因 为 我 们 只 加 载 一 次 页 面 ， 而 且 我 们 必须 避免 在 内 存 中 一 次 性 加 入 大 量 的 信 





息 。 有 具体 设置 如 下 所 示 : 


class TestWikipedia(unittest.TestCase): 


bsObj = None 
url - None 


def test PageProperties(self): 


global bsObj 
global url 


url = "http://en.wikipedia.org/wiki/Monty Python" 


# 测试 遇 到 的 前 100 个 页 面 
for i in range(1, 100): 


bsObj = BeautifulSoup(urlopen(url)) 


titles = self.titleMatchesURL() 


self.assertEquals(titles[0], titles[1]) 
self.assertTrue(self.contentExists()) 


url = self.getNextLink() 


print("Done!") 


de 


-=h 


titleMatchesURL(self): 
global bsObj 
global url 


pageTitle = bsObj.find("hi").get text() 
= url[(url. Bs ema 
urlTitle = urlTitle.replace(" 


urlTitle 


urlTitle = unquote(urlTitle) 


return [pageTitle.lower(), urlTitle.lower()] 


def contentExists(self): 
global bsObj 


content = bsObj.find("div",("id":"mw-content-text"]) 


if content is not None: 


return True 
return False 


def getNextLink(self): 
# 使 用 第 5 章 介绍 的 方法 返 























H 








随机 链接 


D 
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if 


. name  -- ' main ': 


1 1 


unittest.main() 


有 几 个 地 方 需要 注意 。 首 先 ， 这 个 类 里 面 实际 上 只 有 一 个 测试 。 其 他 的 国 数 其 实 都 是 功能 
性 的 辅助 函数 (helper function)， 即 使 它们 做 了 大 量 计算 来 判断 测试 是 否 通过 。 因 为 测试 
国 数 test PageProperties 使 用 了 断言 语句 ， 所 以 测试 的 结果 最 终 会 传 到 这 些 断 言 所 在 的 





国 数 里 。 
































另外 ，contentExists 返回 的 是 布尔 变量 ，titleMatchesURL 返回 的 是 字符 串 列 表 。 我 们 之 
所 以 用 列表 而 不 用 布尔 变量 作为 断言 语句 的 值 ， 其 原因 如 下 所 示 : 








Traceback (most recent call last): 
File "15-3.py", line 22, in test PageProperties 


self.assertTrue(self.titleMatchesURL()) 


AssertionError: False is not true 


assertEquals 语句 的 结果 是 : 


Traceback (most recent call last): 
File "15-3.py", line 23, in test PageProperties 


self.assertEquals(titles[0], titles[1]) 


AssertionError: 'lockheed u-2' !- 'u-2 spy plane' 


究竟 哪 一 种 方式 调试 起 来 更 方便 呢 ? 


在 这 个 示例 中 ， 之 所 生 会 发 生 错 误 是 因为 网 页 发 生 了 一 个 重 定向 ， 即 词 条 https:// 
en.wikipedia.org/wiki/U-2 spy. plane 会 跳 转 到 标题 为 “Lockheed U-2” 的 词 条 。 


13.3 





Selenium 单 元 测试 














和 第 10 章 里 介绍 的 Ajax 采集 一 样 ， 在 网 站 测试 中 JavaScript 也 是 一 个 难题 。 幸 运 的 是 ， 
我 们 有 Selenium， 它 是 一 个 可 以 解决 网 站 上 各 种 复杂 问题 的 优秀 测试 框架 ;其实 ， 它 的 初 
训 就 是 用 来 做 网 站 测试 | 


虽然 这 是 





“断言 ” 
HA 








的 单元 测试 都 是 同一 种 语言 (Python) 写 的 ， 但 是 Python 单元 测试 和 Selenium 


单元 测试 的 语法 还 是 有 点 儿 不 一 样 。Selenium 不 要 求 单元 测试 必须 是 类 的 一 个 函数 ， 它 的 








语句 也 不 需要 括号 ， 而 且 测试 通过 的 话 不 会 有 提示 ， 只 有 当 测试 失败 时 才 会 产生 


信息 提示 : 


driver - webdriver.PhantomJS() 





driver.get("http://en.wikipedia.org/wiki/Monty Python") 
assert "Monty Python" in driver.title 
driver.close() 








lE 











这 段 代码 运行 的 时 候 ， 测 试 结果 不 会 输出 任何 信息 。 








因此 ， 写 Selenium 单元 测试 的 时 候 需 要 比 写 Python 单元 测试 更 加 随意 ， 断 言语 句 甚至 可 
以 整合 到 生产 代码 中 ， 非 常 适合 某 些 条 件 不 能 满足 就 中 断代 码 的 需求 。 





与 网 站 进行 交互 

最 近 ， 我 想 通过 一 个 网 站 的 商户 通讯 录 联 系 我 家 附近 的 一 个 小 商家 ， 结 果 发 现 网 页 上 的 信 
息 没 有 了 ; 我 点 击 提交 按钮 的 时 候 什 么 也 没 查 到 。 经 过 一 些 探索 之 后 ， 我 发 现 这 个 网 站 用 
了 一 个 简易 的 邮件 发 送 表单 ， 如 果 商 户 联系 方式 的 内 容 有 问题 就 可 以 给 网 管 发 邮件 。 于 是 
我 就 用 这 个 邮箱 地 址 给 他 们 发 了 一 封 邮件 ， 告 诉 他 们 联系 方式 信息 表单 出 了 问题 ， 让 他 们 
尽快 解决 ， 虽然 不 是 技术 问题 。 


如 果 我 要 写 一 个 普通 的 仆 虫 来 采集 或 测试 这 个 表单 ， 那 么 念 虫 也 许 只 能 复制 表单 的 结构 ， 
然后 直接 给 我 自己 发 邮件 一 一 不 过 抓 不 到 表单 的 内 容 。 那 么 我 怎么 测试 表单 的 功能 才能 保 
证 它 在 浏览 器 上 也 可 以 正常 工作 呢 ? 


虽然 在 前 面 的 几 童 中 我 们 介绍 过 链接 跳 转 、 表 单 提交 和 其 他 网 站 交互 行为 ， 但 是 我 们 做 那 
些 事 情 的 共同 初 囊 都 是 要 避 开 浏览 器 图 形 界面 ， 而 不 是 使 用 浏览 器 。 男 一 方面 ，Selenium 
可 以 在 浏览 器 (这 里 用 PhantemJS 无 头 浏览 器 ) 上 做 任何 事 ， 包 括 输入 文字 、 点 击 按钮 
等 ， 这 样 就 可 以 找 出 异常 表单 、JavaScript 代码 错误 、HTML 排版 错误 ， 以 及 其 他 用 户 使 
用 过 程 中 可 能 出 现 的 问题 。 






































这 个 测试 的 关键 是 使 用 Selenium 的 elements。 这 个 对 象 在 第 10 章 已 经 简单 介绍 过 了 ， 它 
的 调用 方式 如 下 所 示 : 











usernameField = driver.find element by name('username') 


就 像 你 可 以 在 浏览 器 里 对 网 站 上 的 不 同 元 素 执 行 一 系列 操作 一 样 ，Selenium 也 可 以 对 任何 
给 定 元 素 执 行 很 多 操作 ， 如 下 所 示 : 








myElement.click() 

myElement.click and hold() 

myElement.release() 

myElement.double click() 
myElement.send keys to element("content to enter") 


为 了 一 次 性 完成 一 个 元 素 的 多 个 操作 ， 可 以 用 动作 链 (action chain) 储存 多 个 操作 ， 然 后 
在 一 个 程序 中 执行 一 次 或 多 次 。 用 动作 链 储存 多 个 操作 非常 方便 ， 而 且 非 常 有 用 ， 它 们 的 
功能 和 前 面 示例 中 对 一 个 元 素 显 式 调用 操作 是 完全 一 样 的 。 
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- 了 演示 两 种 方式 的 差异 ， 我 们 看 一 看 http://pythonscraping.com/pages/files/form.html 的 表 
和 (是 第 9 章 用 过 的 例子 ) 。 我 们 用 下 面 的 方式 填写 表单 并 提交 : 


k 





from selenium import webdriver 

from selenium.webdriver.remote.webelement import WebElement 
from selenium.webdriver.common.keys import Keys 

from selenium.webdriver import ActionChains 


driver = webdriver.PhantomJS(executable path-'«Path to Phantom JS»') 
driver.get("http://pythonscraping.com/pages/files/form.html") 


firstnameField - driver.find element by name("firstname") 
lastnameField - driver.find element by name("lastname") 
submitButton - driver.find element by id("submit") 


### 方法 1 H4 

firstnameField.send keys("Ryan") 
lastnameField.send keys("Mitchell") 
submitButton.click() 
THBHIHHHHHBREUEH ERE 


### 方法 2 ## 

actions = ActionChains(driver).click(firstnameField).send keys("Ryan") 
.Click(lastnameField).send keys("Mitchell") 
.send keys(Keys.RETURN) 

actions.perform() 

THERERHSHHHEHHREEHEHE 


print(driver.find element by tag name("body").text) 


driver.close() 





方法 1 在 两 个 字段 上 调用 send_keys， 然 后 点 击 确认 按钮 ， 而 方法 2 在 用 一 个 动作 链 来 点 
击 每 个 字段 并 填写 内 容 ， 这 些 行为 是 在 perform 调用 之 后 才 发 生 的 。 无 论 用 第 
一 个 方法 还 是 第 二 个 方法 ， 这 个 程序 的 结果 都 一 样 : 


























Hello there, Ryan Mitchell! 


两 个 方法 除了 处 理 命令 的 对 象 不 同 之 外 ， 第 二 个 方法 还 有 一 点 差异 : 注意 第 一 个 方法 提交 
表单 是 点 击 “确认 ”按钮 ， 而 第 二 个 方法 提交 表单 是 用 回 车 键 (Keys.RETURN), 。 因 为 实现 同 
样 效果 的 网 络 事件 发 生 顺 序 可 以 有 多 种 ， 所 以 用 Selenium 实现 同样 的 结果 也 有 许多 方式 。 


鼠标 拖 放 动 作 

单 击 按钮 和 输入 文字 只 是 Selenium 的 一 个 功能 ， 其 真正 的 亮点 是 能 够 处 理 更 加 复杂 的 网 络 
单 交互 行为 。Selenium 可 以 轻松 地 完成 鼠标 拖 放 动作 (drag-and-drop). (EH CKY HEA EE 

， 你 需要 指定 一 个 被 拖 放 的 元 素 以 及 拖 放 的 距离 ， 或 者 元 素 将 被 拖 放 到 的 目标 元 素 。 


















































下 面 的 例子 用 http://pythonscraping.com/pages/javascript//draggableDemo.html 页 面 演示 了 拖 

















放 动作 : 


from selenium import webdriver 
from selenium.webdriver.remote.webelement import WebElement 
from selenium.webdriver import ActionChains 


driver = webdriver.PhantomJS(executable path-'«Path to Phantom JS»') 
driver.get('http://pythonscraping.com/pages/javascript/draggableDemo.html') 


print(driver.find element by id("message").text) 
element = driver.find element by id("draggable") 
target - driver.find element by id("div2") 
actions - ActionChains(driver) 


actions.drag and drop(element, target).perform() 


print(driver.find element by id("message").text) 





示例 页 面 的 message 节点 上 显示 了 两 条 信息 。 第 一 条 是 : 











Prove you are not a bot, by dragging the square from the blue area to the red 
area! 





然后 任务 很 快 就 会 完成 ， 第 二 条 内 容 就 被 打印 出 来 : 





You are definitely not a bot! 








当然 ， 就 像 示 例 页 面 上 显示 的 ， 很 多 验证 码 里 使 用 拖 放 动 作证 明 访 问 者 不 是 一 个 机 器 
人 ， 这 是 一 种 常用 手段 。 虽 然 机 器 人 也 可 以 长 时 间 拖 着 一 个 元 素 不 放 (就 是 点 击 ， 拖 
住 ， 移 动 )， 但 是 也 不 知道 为 什么 ， 用 “ 拖 住 不 放 ” 来 检验 一 个 用 户 是 不 是 机 器 人 的 方 
式 仍 然 存 在 。 


男 外， 这 些 可 拖 放 的 验证 码 库 很 少 使 用 那些 “能 够 难 住 机 器 人 ”的 任务 ， 比 如 “ 拖 动 小 猫 
图 片 放 到 奶牛 图 片 的 上 面 ”( 这 需要 你 能 够 识别 “小 猫 ” 和 “奶牛 ”图 片 ) ， 相反， 它们 经 
常用 数字 排序 或 其 他 一 些 非 常 不 起 眼 的 任务 ， 就 像 前 面 例子 里 的 拖 放 。 


当然 ，3 ron it ML ide 







































































频率 都 不 高 愿意 花 时 间 去 做 一 个 能 够 搞定 所 有 任务 的 机 器 人 。 至 少 这 
个 例子 可 以 解释 为 什么 你 不 应 该 在 大 型 网 站 上 用 这 种 技术 。 
2. 截屏 


除了 普通 的 测试 功能 ，Selenium 还 有 一 个 有 趣 的 技巧 可 以 让 你 的 测试 更 容易 (或 者 让 你 老 
板 更 喜欢 ) : 截屏 。 截 屏 可 以 在 单元 测试 中 创建 ， 不 需要 点 击 截 屏 按钮 就 可 以 获取 : 











driver = webdriver.PhantomJS() 
driver.get('http://www.pythonscraping.com/') 
driver.get screenshot as file('tmp/pythonscraping.png') 
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这 段 脚 本 会 访问 http:/pythonscraping.com/， 并 将 主页 的 屏幕 截 














中 (该 文件 夹 必 须 创 建 好 ， 以 供 正 确 存 储 之 用 )。 截 屏 可 保存 为 多 种 文件 格式 。 


13.4 Python 单元 测试 与 Selenium 单 元 测试 的 


选择 


Ju 


图 保存 在 本 地 的 tmp XH 


tr 


K 





Python 的 单元 测试 语法 严谨 元 长 ， 更 适合 为 大 多 数 大 型 项 目 写 测试 ， 而 Selenium 的 测试 方 
式 灵活 且 功 能 强大 ， 可 以 成 为 一 些 网 站 功能 测试 的 首选 。 那 么 应 该 使 用 哪个 呢 ? 











答案 是 : 不 需要 选择 。Selenium 可 以 轻易 地 获取 网 站 的 信息 ， 而 单元 测试 可 以 评估 这 些 信 
息 是 否 满足 通过 测试 的 条 件 。 因 此 ， 你 没有 理由 拒绝 把 Selenium 导入 Python 的 单元 测试 ， 



































T 




















两 者 组 合 是 最 佳 拍档 。 
例如 ， 下 面 的 程序 创建 了 一 个 带 拖 放 动 作 的 网 站 单元 测试 ， 如 果 一 个 元 素 被 正确 地 拖 放 到 


另 一 个 元 素 里 ， 那 么 推断 条 件 成 立 ， 会 显示 “你 不 是 一 个 机 器 人 1! ” 

















测试 通过 。 


from selenium import webdriver 

from selenium.webdriver.remote.webelement import WebElement 
from selenium.webdriver import ActionChains 

import unittest 


class TestAddition(unittest.TestCase): 
driver - None 


def 


def 


def 


setUp(self): 

global driver 

driver = webdriver.PhantomJS(executable path-'«Path to Phantom JS»') 
url = 'http://pythonscraping.com/pages/javascript/draggableDemo.html' 
driver.get(url) 


tearDown(self): 
print("Tearing down the test") 


test drag(self): 

global driver 

element = driver.find element by id("draggable") 
target - driver.find element by id("div2") 
actions = ActionChains(driver) 
actions.drag and drop(element, target).perform() 


self.assertEqual("You are definitely 
not a bot!", driver.find element by id( 
"message").text) 


1 1 


(You are not a bot!) ， 





if | name _ == ' main ': 
unittest.main() 
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任何 网 站 上 可 以 看 到 的 内 容 都 可 以 通过 Python 的 单元 测试 和 Selenium 组 合 来 测试 。 其 
实 ， 如 果 再 与 第 11 章 介绍 的 一 些 图 像 处 理 库 组 合 起 来 ， 就 可 以 通过 网 站 截屏 实现 像素 级 
测试 了 ! 
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本 章 内 容 放 在 最 后 来 介绍 还 是 比较 合适 的 。 到 现在 为 止 ， 我 们 已 经 在 自己 的 电脑 上 通过 命 
令 行 运行 了 所 有 的 Pyhton 程序 。 当 然 ， 你 可 能 也 安装 了 MySQL， 尝 试 真实 的 服务 器 环境 。 
但 是 这 和 实际 的 服务 器 还 是 不 一 样 的 。 正 如 一 名 谚语 所 说 :“ 如 果 你 喜欢 某 个 东西 ， 就 放 
Hv. 











这 一 章 我 们 将 介绍 几 种 方法 ， 让 程序 在 不 同 的 机 器 上 运行 ， 或 者 在 你 的 电脑 上 用 不 同 的 IP 
地 址 运行 。 你 可 能 打算 放弃 这 一 章 ， 因 为 你 现在 还 不 需要 这 些 内 容 ， 但 是 你 可 能 会 感到 惊 
讶 ， 自 己 原来 已 经 拥有 非常 容易 上 手 的 工具 了 (比如 一 些 付费 的 VPS 或 云 计算 资源 )， 而 
且 当 你 停止 在 自己 的 笔记 本 上 运行 Python 聆 虫 后 ， 生 活 会 变 得 更 加 轻松 。 


14.1 为 什么 要 用 远程 服务 器 

虽然 使 用 远程 服务 器 看 起 来 可 能 更 像 是 在 启动 一 个 供 广大 用 户 使 用 的 网 络 应 用 时 所 采取 的 
必然 步 又 ， 但 我 们 为 个 人 目的 建立 的 工具 通常 都 必须 在 本 地 运行 。 启 用 远程 平台 的 人 通 党 
有 两 个 目的 对 更 大 计算 能 力 和 灵活 性 的 需求 ， 以 及 对 可 变 TP 地 址 的 需求。 








14.1.1 ”避免 IP 地 址 被 封杀 
建立 网 络 爬 虫 的 第 一 原则 是 : 所 有 信息 都 可 以 伪造 。 你 可 以 用 非 本 人 的 邮箱 发 送 邮 件 ， 通 
过 命令 行 自动 化 鼠标 的 行为 ， 或 者 通过 IE5.0 浏览 器 耗费 网 站 流量 来 吓 距 网 管 。 











但 是 有 一 件 事 情 是 不 能 作假 的 ， 那 就 是 你 的 卫 地 址 。 任 何人 都 可 以 用 这 个 地 址 给 你 写 信 : 
“美国 华盛顿 特区 宾夕法尼亚 大 道 西 北 1600 号， 总统， 邮编 20500。” 但 是 ， 如 果 这 封 信 是 
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从 新 墨西哥 州 的 阿尔 伯 克 基 市 发 
阻止 网 站 被 采集 的 注意 力主 要 集 


来 的 ， 那 么 你 肯定 可 以 确信 给 你 写 信 的 不 是 美国 总 统 。' 








中 在 识别 人 类 与 机 器 人 的 行为 差异 上 上面。 封杀 IP 地 址 这 种 











矫 枉 过 正 的 行为 ， 就 好 像 是 农民 不 靠 喷 农药 给 庄稼 杀 虫 ， 而 是 直接 用 火烧 彻底 解决 问题 。 














它 是 最 后 一 步 棋 ， 不 过 是 一 种 非 
了 。 但 是 ， 使 用 这 种 方法 会 遇 到 


常 有 效 的 方法 ， 只 要 忽略 危险 IP 地 址 发 来 的 数据 包 就 可 以 
以 下 几 个 问题 。 


。 卫 地 址 访问 列表 很 难 维护 。 虽 然 大 多 数 大 型 网 站 都 会 用 自己 的 程序 自动 管理 IP 地 址 访 


问 列表 (机 器 人 封杀 机 器 人 ) 
题 的 增长 。 











， 但 是 至 少 需要 人 偶尔 检查 一 下 列表 ， 或 者 至 少 要 监控 问 


。 因为 服务 器 需要 根据 IP. 地 址 访问 列表 去 检查 每 个 准备 接收 的 数据 包 ， 所 以 检查 接收 数 
据 包 时 会 额外 增加 一 些 处 理 时 间 。 多 个 IP 地 址 乘 以 海量 的 数据 包 更 会 使 检查 时 间 指 数 
级 增长 。 为 了 降低 处 理 时 间 和 处 理 复杂 度 ， 管 理 员 通常 会 对 IP 地 址 进行 分 组 管理 并 制 
定 相应 的 规则 ， 比 如 如 果 这 组 IP 中 有 一 些 危 险 分 子 就 “把 这 个 区 间 的 所 有 256 个 地 址 




















全 部 封杀 "。 于 是 产生 了 下 一 个 问题 。 






































。 封杀 卫 地 址 可 能 会 导致 意外 后 果 。 例 如 ， 当 我 还 在 美国 麻 省 欧 林 工程 学 院 读 本 科 的 时 
候 ， 有 个 同学 写 了 一 个 可 以 在 http://digg.com/ 网 站 (££ Reddit 流行 之 前 大 家 都 用 Digg) 


上 对 热门 内 容 进 行 投票 的 软 伯 





F。 这 个 软件 的 服务 器 IP 地 址 被 Digg 封杀 ， 导 致 整个 网 站 


都 不 能 访问 。 于 是 这 个 同学 就 把 软件 移 到 了 另 一 个 服务 器 上 ， 而 Digg ACARA TYF 


多 主要 目标 用 户 的 访问 量 。 





虽然 有 这 些 缺 点 ， 但 封杀 卫 地 址 依然 是 一 种 十 分 常用 的 手段 ， 服 务 器 管理 员 用 它 来 阻止 可 


疑 的 网 络 疏 虫 人 侵 服务 器 。 





14.1.2 ”移植 性 与 扩展 性 


有 一 些 任务 想 通过 个 人 电脑 连 网 完成 会 十 分 困难 。 即 使 你 并 不 想 给 任何 一 个 网 站 增加 人 负 


载 ， 但 是 如 果 你 会 从 一 堆 网 站 里 





收集 数据 ， 也 会 需要 更 快 的 网 速 以 及 更 多 存储 空间 。 


另外 ， 自 己 电脑 上 的 计算 资源 释放 之 后 ， 你 就 可 以 做 很 多 更 重要 事情 啦 ( 玩 魔兽 ， 看 电 
影 ，LOL)。 你 也 不 用 担心 电费 和 网 速 了 (在 星巴克 启动 你 的 应 用 ， 合 上 笔记 本 离开 ， 每 
件 事情 都 可 以 安全 地 运行 )， 你 也 可 以 在 任何 有 网 络 连接 的 地 方 收 集 数据 。 


如 果 你 的 一 个 应 用 需要 非常 大 的 计算 能 力 ， 亚 马 进 AWS 的 一 个 超大 计算 实例 也 不 能 满足 


你 的 需求 ， 那 么 你 可 以 看 看 分 布 











式 计算 (distributed computing)。 这 种 方法 可 以 让 多 个 机 器 


并 发 执行 来 完成 你 的 任务 。 一 个 简单 的 例子 是 你 可 以 用 一 台 机 器 来 采集 一 些 网 站 ， 再 用 另 








注 1: 从 技术 上 说 ，IP 地 址 是 可 以 通过 发 送 数 据 包 进 行 伪装 的 ， 就 是 分 布 式 拒绝 服务 攻击 技术 (Distributed 





Denial of Service, DDoS), ， 攻 击 者 不 需要 关心 接收 的 数据 包 (这 样 发 送 请 求 的 时 候 就 可 以 使 用 假 IP 
地 址 )。 但 是 网 络 数据 采集 是 一 种 需要 关心 服务 器 响应 的 行为 ， 所 以 我 们 认为 卫 地 址 是 不 能 造假 的 。 











一 台 机 器 采集 另 一 些 网 站 ， 最 后 在 把 所 有 的 结果 存储 在 同一 个 数据 库 里 。 


当然 ， 前 儿童 的 例子 很 多 都 是 在 重复 Google 搜索 干 的 事情 ， 但 是 没有 几 个 程序 可 以 达到 
Google 搜索 的 运行 规模 。 分 布 式 计算 是 计算 机 科学 中 的 一 个 庞大 领域 ， 超 出 了 本 书 的 介绍 


范围 。 但 是 ， 学 习 如 何 让 你 
计算 机 的 能 力 感到 无 比 惊 讶 











的 程序 在 远程 服务 器 执行 是 基本 前 提 ， 学 会 之 后 你 一 定 对 当今 


o 


14.2 Tor 代 理 服务 器 


EAk (The Onion Router) 网 络 ， 常 用 缩写 为 Tor， 是 一 种 IP 地 址 匿名 手段 。 由 网 络 志 


愿 者 服务 器 构建 的 洋 翘 路 由 





器 网 络 ， 通 过 不 同 服务 器 构成 多 个 层 (就 像 洋 葡 ) 把 客户 端 包 





在 最 里 面 。 数 据 进入 网 络 之 前 会 被 加 密 ， 因 此 任何 服务 器 都 不 能 偷 取 通 信 数 据 。 另 外 ， 虽 
然 每 一 个 服务 器 的 入 站 和 出 站 通信 都 可 以 被 查 到 ， 但 是 要 想 查 出 通信 的 真正 起 点 和 终点 ， 
必须 知道 整个 通信 和 链 路 上 所 有 服务 器 的 入 站 和 出 站 通信 细 市 ， 而 这 基本 是 不 可 能 实现 的 。 





Tor 是 人 权 工 作者 和 政治 避 











难 人 员 与 记者 通信 的 常用 手段 ， 得 到 了 美国 政府 的 大 力 支 持 。 


当然 ， 它 经 常 也 被 用 于 非法 活动 ， 所 以 也 是 政府 盯 防 的 目标 (虽然 目前 采 防 得 并 不 是 很 


成 功 )。 


虽然 我 们 在 本 








Tor 匿名 的 局 限 性 





中 用 Tor 的 目的 是 改变 IP 地 址 ， 而 不 是 实现 完全 匿名 ， 但 有 


必要 关注 一 下 Tor 匿名 方法 的 能 力 和 不 足 。 


虽然 Tor 网 络 可 以 让 你 访问 网 站 时 显示 的 卫 地 址 是 一 个 不 能 跟踪 到 你 的 IP 


地 址 ， 但 是 你 在 网 站 上 留 给 服务 器 的 任何 信息 都 会 暴露 你 的 身份 。 例 如 ， 你 
登录 Gmail 账号 后 再 用 Google 搜索 ， 那 些 搜索 历史 就 会 和 你 的 身份 绑 定 在 


一 起 。 








另外 ， 登 录 Tor 的 行为 也 可 能 让 你 的 匿名 状态 处 于 危险 之 中 。2013 年 12 H, 
一 个 哈佛 大 学 本 科 生 想 逃避 期 末 考 试 ， 就 用 一 个 匿名 邮箱 账号 通过 Tor 网 络 
给 学 校 发 了 一 封 炸弹 威胁 信 。 结 果 哈 佛 大 学 的 IT 部门 通过 日 志 查 到 ， 在 炸 
弹 威 胁 信 发 来 的 时 候 ，Tor 网 络 的 流量 只 来 自 一 台 机 器 ， 而 且 是 一 个 在 校 学 
生 注 册 的 。 虽 然 他 们 不 能 确定 流量 的 最 初 源头 (只 知道 是 通过 Tor 发 送 的 )， 
但 是 作案 时 间 和 注册 信息 证 据 充 分 ， 而 且 那 个 时 间 段 内 只 有 一 台 机 器 是 登录 
状态 ， 这 就 有 充分 理由 起 诉 那个 学 生 了 。 






































登录 Tor 网 络 不 是 一 个 自动 的 匿名 措施 ， 也 不 能 让 你 进入 互联 网 上 任何 区 
域 。 虽 然 它 是 一 个 实用 的 工具 ,但 是 用 它 的 时 候 一 定 要 人 谨慎、 清醒， 并 且 遵 


守 道 德 规范 。 
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在 Python 里 使 用 Tor， 需 要 先 安装 运行 Tor， 下 一 节 将 介绍 。Tor 服务 很 容易 安装 和 开启 。 
只 要 去 Tor 下 载 页 面 (https:Wwww.torproject.org/download/download) 下 载 并 安装 ， 打 开 后 
连接 就 可 以 。 不 过 要 注意 ， 当 你 用 Tor 的 时 候 网 速 会 变 慢 。 这 是 因为 代理 有 可 能 要 先 在 全 
世界 网 络 上 转 几 次 才 到 目的 地 ! 








PySocks 
PySocks 是 一 个 非常 简单 的 Python 代理 服务 器 通信 模块 ， 它 可 以 和 Tor 配合 使 用 。 你 可 以 
从 它 的 网 站 (https//pypi.python.org/pypi/PySocks) 上 下 载 ， 或 者 使 用 任何 第 三 方 模块 管理 
器 安装 。 
这 个 模块 的 用 法 很 简单 。 示 例 代 码 如 下 所 示 。 运 行 的 时 候 ，Tor 服务 必须 运行 在 9150 端口 
(默认 值 ) 上 : 














import socks 
import socket 
from urllib.request import urlopen 


socks.set default proxy(socks.SOCKS5, "localhost", 9150) 
Socket.socket = socks.socksocket 
print(urlopen('http://icanhazip.com').read()) 


网 站 http:;//icanhazip.com/ 会 显示 客户 端 连 接 的 网 站 服务 器 的 IP 地址 ， 可 以 用 来 测试 Tor 是 
否 正常 运行 。 当 程序 执行 之 后 ， 显 示 的 IP 地 址 就 不 是 你 原来 的 了 了。 


如 果 你 想 在 Tor 里 面 用 Selenium 和 PhantomJS ， 不 需要 PySocks， 只 要 保证 Tor 在 运行 ， 然 
后 增加 service_args 参数 设置 代理 端口 ， 让 Selenium 通过 端口 9150 连接 网 站 就 可 以 了 : 


























from selenium import webdriver 

service args - [ '--proxy-localhost:9150', '--proxy-type-socks5', ] 

driver = webdriver.PhantomJS(executable path-'«path to PhantomJS»', 
service args-service args) 


driver.get("http://icanhazip.com") 

print(driver.page source) 

driver.close() 
和 之 前 一 样 ， 这 个 程序 打印 的 IP 地 址 也 不 是 你 原来 的 ， 而 是 你 通过 Tor 客户 端 获得 的 IP 
地 址 。 


14.8 ”远程 主机 
一 旦 你 使 用 信用 卡 ， 完 全 的 匿名 效果 就 消失 了 ， 即 便 如 此 ， 你 还 是 可 以 把 网 络 仆 虫 放 在 远 
程 主机 (Remote Hosting) 上 动态 地 改善 它们 的 运行 速度 。 这 是 因为 你 不 仅 可 以 自由 购买 
服务 器 的 使 用 时 间 ， 使 用 更 强大 的 机 器 ， 而 且 网 络 连接 也 不 需要 在 到 达 访 问 目的 地 之 前 在 
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Tor 网 络 中 长 途 跋 涉 。 


14.3.1 从 网 站 主机 运行 

如 果 你 拥有 个 人 网 站 或 公司 网 站 ， 那 么 你 可 能 已 经 知道 如 何 使 用 外 部 服务 器 运行 你 的 网 络 
爬虫 了 。 即 使 是 一 些 相 对 封闭 的 网 络 服务 器 ， 没 有 可 用 的 命令 行 接 入 方式 ， 你 也 可 以 通过 
网 页 界面 对 程序 进行 控制 。 
































如 果 你 的 网 站 部 署 在 Linux 服务 器 上 ， 应 该 已 经 运行 了 Python。 如果 你 用 的 是 Windows 服 
务 器 ， 可 能 就 没 那 么 幸运 了 ， 你 需要 仔细 检查 一 下 Python 有 没有 安装 ， 或 者 问 问 网 管 可 不 
可 以 安装 。 


大 多 数 小 型 网 络 主机 都 会 提供 一 个 软件 叫 cPanel， 提 供 网 站 管理 和 后 台 服 务 的 基本 管理 功 
能 和 信息 。 如 果 你 接 和 人 了 cPanel， 就 可 以 设置 Python 在 服务 器 上 运行 一 一 进入 “Apache 
Handlers” 然 后 增加 一 个 handler (如 还 没有 的 话 ) : 








Handler: cgi-script 
Extension(s): .py 


这 会 告诉 服务 器 所 有 的 Python 脚本 都 将 作为 一 个 CGI 脚本 运行 。CGI 就 是 通用 网 关 接口 
(Common Gateway Interface) ， 是 可 以 在 服务 器 上 运行 的 任何 程序 ， 会 动态 地 生成 内 容 并 显 


示 在 网 站 上 。 把 Python 脚本 显 式 地 定义 成 CGI 脚本 ， 就 是 给 服务 器 权限 去 执行 Python 脚 
本 ， 而 不 只 是 在 浏览 器 上 显示 它们 或 者 让 用 户 下 载 它们 。 











写 完 Python 脚本 后 上 传 到 服务 器 ， 然 后 把 文件 权限 设置 成 755， 让 它 可 执行 。 通 过 浏览 器 
找到 程序 上 传 的 位 置 (也 可 以 写 一 个 仆 虫 来 自动 做 这 件 事情 ) 就 可 以 执行 程序 。 如 果 你 担 
心 在 公共 领域 执行 脚本 不 安全 ， 可 以 采取 以 下 两 种 方法 。 


。 把 脚本 存储 在 一 个 隐 临 或 深层 的 URL 里 ， 确 保 其 他 URL 链接 都 不 能 接 入 这 个 脚本 ， 这 
样 可 以 避免 搜索 引擎 发 现 它 。 
。 用 密码 保护 脚本 ， 或 者 在 执行 脚本 之 前 用 密码 或 加 密令 牌 进行 确认 。 























确实 ， 通 过 这 些 原 本 主要 是 用 来 显示 网 站 的 服务 运行 Python 脚本 有 点 儿 复杂 。 比 如 ， 你 可 
能 会 发 现 网 络 疏 虫 运行 时 网 站 的 加 载 速 度 变 慢 了 。 其 实 ， 在 整个 采集 任务 完成 之 前 页 面 都 
是 不 会 加 载 的 〈 得 等 到 所 有 “print” 话 名 的 输出 内 容 都 显示 完 )。 这 可 能 会 消耗 儿 分 钟 ， 几 
小 时 ， 甚 至 永远 也 完成 不 了 ， 要 看 程序 的 具体 情况 了 。 虽 然 它 最 终 一 定 能 完成 任务 ， 但 是 
可 能 你 还 想 看 到 实时 的 结果 ， 这 样 就 需要 一 台 真 正 的 服务 器 了 。 





















































14.3.2 ”从 云 主 机 运行 
以 前 ， 程 序 员 会 为 了 在 计算 机 上 运行 或 者 存储 自己 的 程序 而 付费 。 个 人 电脑 发 明之 后 ， 这 
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种 事情 似乎 没 必 要 了 一 一 人 们 可 以 直接 在 自己 的 电脑 上 写 程序 并 运行 。 现 在 ， 应 用 程序 的 
计算 需求 已 经 完全 超越 了 微 处 理 器 的 发 展 速度 ， 于 是 程序 员 又 开始 为 计算 能 力 付费 了 。 


但 是 ， 这 次 用 户 不 再 为 单个 物理 机 器 的 计算 能 力 付 费 ， 而 是 为 多 个 机 器 共同 的 计算 能 力 付 
费 。 这 种 云 状 计 算 系 统 的 计算 能 力 可 以 按 使 用 时 间 进 行 付费 。 例 如 ， 当 客户 计算 的 低 成 本 
比 即 时 性 更 重要 时 ， 亚 马 还 的 EC2 允许 用 户 使 用 “竞价 型 实例 ”(spot instance)， 可 以 先 
竞价 再 使 用 云 计算 服务 。 

































































计算 实例 还 可 以 进行 定制 ， 也 可 以 根据 应 用 程序 的 实际 需求 进行 设置 ， 选 项 有 “高 内 
存 ”“ 快 速 计算 ” “大 容量 存储 "。 虽 然 网 络 扑 虫 不 需要 很 多 内 存 ， 但 是 你 可 能 需要 较 大 的 
存储 空间 或 快速 的 计算 能 力 来 实现 仆 虫 的 更 多 功能 。 如 果 你 要 做 大 量 的 自然 语言 处 理 、 
OCR 或 者 路 径 查 找 〈 就 像 “ 维 基 百 科 六 度 分 隔 理论 ”问题 ) 之 类 的 工作 ， 选 择 “ 快 速 计 
算 ” 实 例 就 可 以 。 如 果 你 要 采集 大 量 数据 ， 存 储 许 多 文件 ， 或 者 进行 大 数据 分 析 ， 可 能 就 
需要 用 带 大 容量 存储 的 计算 实例 了 。 









































虽然 云 计算 的 花费 可 能 是 无 底 洞 ， 但 是 写 到 这 里 的 时 候 ， 启 动 一 个 计算 实例 最 便宜 只 要 每 
小 时 1.3 美 分 【亚马逊 EC2 的 micro 实例 ， 基 他 实例 会 更 贵 )，Google 最 便宜 的 计算 实例 
是 每 小 时 4.5 美 分 ， 最 少 需要 用 10 分 钟 。 考 虑 计算 能 力 的 规模 效应 ， 从 大 公司 买 一 个 小 型 
的 云 计算 实例 的 费用 ， 和 自己 买 一 台 专 业 实体 机 的 费用 应 该 差不多 一 一 不 过 用 云 计 算 不 需 
要 雇 人 去 维护 设备 。 


显然 ， 一 步 一 步 设置 和 运行 云 计 算 实例 的 教程 超出 了 本 书 介绍 范围 ， 不 过 你 自己 其 实 不 需 
要 这 类 教程 。 亚 马 进 和 Google (还 有 不 计 其 数 的 小 公司 ) 的 云 计 算 产 品 正 在 激烈 竞争 ， 它 
们 会 尽力 把 新 实例 创建 的 步骤 做 到 最 简单 ， 填 个 应 用 名 称 ， 设 置 一 下 信用 卡 信息 就 可 以 
T. SEPRENE, EHF Google 还 为 新 用 户 提供 了 价值 儿 百 美元 的 免费 计算 时 间 。 
























































设置 好 计算 实例 之 后 ， 你 就 有 了 新 卫 地 址 、 用 户 名 ， 以 及 可 以 通过 SSH 进行 实例 连接 的 
公私 密 钥 了 。 后 面 要 做 的 每 件 事情 ， 都 应 该 和 你 在 实体 服务 器 上 干 的 事情 一 样 了 一 一 当 
然 ， 你 不 需要 再 担心 硬件 维护 ， 也 不 用 运行 复杂 多 余 的 监控 工具 了 。 


14.4 其 他 资源 

很 多 年 以 前 ,“ 在 云端 ”运行 基本 上 是 那些 既 懂 理论 又 具有 服务 器 运 维 经 验 的 人 们 之 间 的 
高 谈 阔 论 。 但 是 今天 ， 由 于 云 计 算 技术 的 不 断 普及 ， 以 及 云 计算 供应 商 之 间 的 竞争 ， 云 计 
算 工具 已 经 有 了 极 大 的 改善 。 


如 果 你 想 建立 规模 更 大 或 更 复杂 的 念 虫 ， 在 创建 云 计 算 平台 以 收集 和 存储 数据 时 ， 可 能 还 
需要 一 些 参 考 资 料 。 
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Marc Cohen, Kathryn Hurley 和 Paul Newson 合 著 的 Google Compute Engine (http://shop. 








oreilly.com/product/0636920028888.do) 是 通过 Python 和 JavaScript 使 用 Google 云 计 算 平 台 
的 第 一 手 资料 。 书 中 不 仅 介 绍 了 Google 的 用 户 界面 ， 还 介绍 了 命令 行 和 脚本 工具 ， 可 以 
让 你 的 应 用 获取 更 大 的 灵 话 性 。 




















如 果 你 更 喜欢 亚 马 进 ，Mitch Garnaat 的 Python and AWS Cookbook (http://shop.oreilly.com/ 
product/0636920020202.do) 是 一 本 非常 实用 的 手册 ， 可 以 让 你 顺利 启动 AWS 服务 ， 还 会 
告诉 你 如 何 创建 并 运行 一 个 可 扩展 的 应 用 。 


14.5 ”勇往直前 
网 络 一 直 在 不 断 地 变化 。 那 些 给 我 们 带 来 了 图 像 、 视 频 、 文 字 和 其 他 数据 文件 的 计算 机 
技术 也 在 不 断 地 升级 和 改进 。 如 果 想 紧 跟 技术 少 流 ， 采 和 集 互 联网 数据 的 技术 就 需要 随机 


应 变 。 


本 书 未 来 的 版 本 可 能 会 完全 忽略 JavaScript， 它 已 是 一 种 过 时 的 、 极 少 用 的 技术 了 ， 而 重 
点 关注 用 HTMLS 实现 页 面 。 但 是 ， 采 集 网 站 内 容 的 基本 思路 和 一 般 方法 是 不 会 改变 的 。 
无 论 现在 还 是 将 来 ， 遇 到 一 个 网 络 数据 采集 项 目 时 ， 你 都 应 该 问 癌 自己 以 下 几 个 问题 。 


。 我 需要 回答 或 要 解决 的 问题 是 什么 ? 

。 什么 数据 可 以 帮助 我 ， 它 们 都 在 哪里 ? 

。 网 站 是 如 何 展示 数据 的 ? 我 能 准确 地 识别 网 站 代码 中 包含 信息 的 部 分 吗 ? 
。 该 如 何 定位 这 些 数 据 并 获取 它们 ? 

。 为 了 让 数据 更 实用 ， 我 应 该 做 怎样 的 处 理 和 分 析 ? 

。 怎样 才能 让 采集 过 程 更 好 ， 更 快 ， 更 稳定 ? 















































总 之 ， 你 不 仅 需 要 和 擎 握 如 何 使 用 本 书 中 介绍 的 工具 ， 还 要 知道 如 何 把 它们 有 效 地 组 合 起 来 
解决 问题 。 有 时 ， 数 据 格式 很 规范 ， 比 较 容 易 获 取 ， 用 一 个 简单 的 腿 虫 就 搞定 了 。 有 时 ， 
你 可 能 需要 仔细 地 思考 一 香 才 能 解决 。 








例如 ， 在 第 10 章 里 ， 我 首先 用 Selenium 获取 在 亚马逊 图 书 预览 页 面 中 通过 Ajax 加 载 的 
片 ， 然 后 再 用 Tesseract 读 取 图 片 ， 识 别 里 面 的 文字 。 在 “维基 百科 六 度 分 隔 ” 问 题 中 ， 
先 用 正则 表达 式 实现 仆 虫 ， 把 维基 词 条 链接 信息 存储 到 数据 库 ， 然 后 用 有 向 图 算法 寻找 i 
条 凯 文 * 贝 肯 与 词 条 埃 里 克 . 艾 德 尔 之 间 最 短 的 链接 路 径 。 


在 使 用 自动 化 技术 采集 互联 网 数据 时 ， 其 实 很 少 遇 到 完全 无 法 解决 的 问题 。 记 住 一 点 就 
fr: 互联 网 其 实 就 是 一 个 用 户 界 面 不 太 友好 的 超级 APL 



































Ai 
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附录 A 
Python 简介 





根据 美国 计算 机 协会 (Association of Computing Machinery，ACM) 的 统计 数据 ，Python 
是 全 美国 最 流行 的 计算 机 教学 语言 ， 在 编程 入 门 课程 中 它 比 BASIC, Java 其 至 C 语言 更 流 
行 。 这 部 分 内 容 将 介绍 Python 3.x 版 本 和 Python 程序 的 安装 、 使 用 和 运行 。 





ri * 
安装 与 “Hello,World!” 
如 果 你 用 Mac OS X 或 是 任意 版 本 的 Linux, Python 可 能 已 经 安装 在 系统 上 了 。 如 果 不 确 
定 ， 可 以 输入 下 面 的 命令 检查 一 下 : 

$python --version 
我 们 全 书 都 用 Python 3.x 版 本 。 如 果 你 发 现 系统 安装 了 Python 2.x 版 本 ， 你 可 以 升级 系统 ， 
用 apt-get 命令 安装 : 

$sudo apt-get install python3 


注意 ， 如 果 要 用 Python 3.x 版 本 运行 程序 ， 你 需要 在 命令 行 里 输入 $python3 myScript.py, 
而 不 是 $python myScript.py。 

本 书写 到 这 里 的 时 候 ，Mac OS X 操作 系统 默认 已 经 安装 了 Python 2.7 版 本 。 要 安装 Python 
3.x 版 本 ， 请 从 Python 官网 下 载 安装 包 (https:Wwww.python.org/downloads/mac-osx/) 。 5 
外 ， 如 果 你 需要 同时 运行 Python 2.x 版 本 和 Python 3.x 版 本 ， 那 么 在 使 用 Python 3.x 版 本 


时 需要 使 用 Spython3, 


181 


Windows 系统 默认 没有 了 Python， 在 Python 官网 上 有 预 编 译 安 装 包 (https://docs.python. 
org/3/using/windows.html) 可 以 下 载 。 只 需 简 单 地 下 载 ， 打 开 ， 然 后 安装 。 虽 然 在 
Windows 系统 上 ， 你 可 能 还 需要 在 系统 设置 里 把 Python 安装 路 径 添加 到 系统 变量 中 ， 让 
操作 系统 能 够 找到 它 ， 但 是 网 站 和 安装 包 都 会 提供 非常 简单 的 操作 指导 帮 你 完成 这 些 。 


























关于 各 个 系统 平台 中 安装 和 升级 Python 的 更 全 面 内 容 ， 请 访问 Python 下 载 页 面 (https:/ 


www.python.org/downloads/) 。 


Python 可 以 作为 脚本 语言 使 用 ， 不 需要 像 Java 一 样 创建 类 和 函数 。 直 接 打 开 文 本 编辑 器 ， 
BA: 


print("Hello, Internet!") 

















然后 把 文件 保存 为 hello.py 就 可 以 了 。 如 果 你 想 更 细致 一 点 儿 ， 可 以 创建 一 个 国 数 来 实现 
同样 的 结果 : 




















def hello(): 
print("Hello, Internet!") 
hello() 


这 里 有 几 点 需要 注意 一 下 。 








Python 不 用 分 号 表示 句子 结束 ， 也 不 用 大 括号 表示 循环 体 或 函数 体 的 开始 和 结束 。Python 
用 断 行 (line break) 和 缩 进 (Tab HE) 来 控制 代码 逻辑 。 在 上 面 的 文件 中 ， 第 一 行 是 def， 
后 面 跟着 函数 名 和 参数 列表 (这 里 我 们 用 O 表示 没有 参数 ) ， 还 有 一 个 分 号 表示 下 一 行 开 
就 是 函数 体 。 函 数 声明 下 面 的 函数 体 中 每 一 行 都 必须 缩 进 ， 结 束 缩 进 表示 退出 函数 体 。 




















一 开始 可 能 会 觉得 用 空格 表示 缩 进 有 点 儿 翁 ， 但 是 请 坚持 。 以 我 的 经 验 看 ， 写 Python 会 改 
善 我 们 写 其 他 代码 的 可 读 性 。 不 过 切换 到 其 他 编程 语言 时 ， 比 如 Java 或 C 语言 ， 记 得 在 
句 末 加 上 分 号 。 





H 


Python 是 一 个 弱 类 型 语言 ， 就 是 说 变量 初始 化 的 时 候 不 需要 显 式 声 明 变量 类 型 (字符 串 、 
整数 、 对 象 等 )。 和 其 他 弱 类 型 语言 一 样 ， 这 样 有 时 候 调 试 会 出 问题 ， 不 过 这 样 声 明 变 量 
很 简单 : 

greeting = "Hello, Internet!" 

print(greeting) 








就 这 些 ! 你 已 经 是 一 个 Pythoneer T! 

显然 ， 这 点 儿 知 识 只 是 Python 的 冰山 一 角 ， 但 是 Python 是 一 门 非常 简单 的 语言 ， 其 他 语 
言 的 程序 员 其 至 可 以 不 用 预先 了 解 太 多 就 可 以 阅读 和 理解 它 的 代码 。 这 门 语言 的 简单 特 
性 ， 可 以 用 Python 最 著名 的 “彩蛋 ” (Easter Egg) 来 总 结 : 





























import this 
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输出 结果 是 : 


The Zen of Python, by Tim Peters 


Beautiful is better than ugly. 

Explicit is better than implicit. 

Simple is better than complex. 

Complex is better than complicated. 

Flat is better than nested. 

Sparse is better than dense. 

Readability counts. 

Special cases aren't special enough to break the rules. 

Although practicality beats purity. 

Errors should never pass silently. 

Unless explicitly silenced. 

In the face of ambiguity, refuse the temptation to guess. 

There should be one-- and preferably only one --obvious way to do it. 
Although that way may not be obvious at first unless you're Dutch. 
Now is better than never. 

Although never is often better than right now. 

If the implementation is hard to explain, it's a bad idea. 

If the implementation is easy to explain, it may be a good idea. 
Namespaces are one honking great idea -- let's do more of those! 


翻译 过 来 即 是 : 


《Python 之 禅 》 ^ Tim Peters 


优美 胜 于 丑陋 
HH T HETKE 
简洁 胜 于 复 厅 
复杂 胜 于 混乱 
ha^ MET HECES 
宽松 胜 于 紧凑 
可 读 性 很 重要 
即便 是 特例 ， 也 不 可 违背 这 些 规则 

虽然 现实 往往 不 那么 完 

但 是 不 应 该 放 过 任何 异常 

除非 你 确定 需要 如 此 

如 果 存 在 多 种 可 能 ,不 要 猜测 

肯定 有 一 种 一 一 通常 也 是 唯一 一 种 一 一 最 佳 的 解决 方案 
虽然 这 并 不 容易 ,因为 你 不 是 Python 之 父 : 
动手 比 不 动手 要 好 

但 不 假 思 索 就 动手 还 不 如 不 做 

如 果 你 的 方案 很 难 懂 , 那 肯定 不 是 一 个 好 方案 
如 果 你 的 方案 很 好 懂 , 那 肯定 是 一 个 好 方案 
命名 空间 非常 有 用 ,我 们 应 当 多 加 利用 









































Hr 








: 这 一 行 可 能 是 指 荷 兰 计算 机 科学 家 艾 效 赫 尔 * 戴 克 斯 特 拉 (Edsger Dijkstra) ,他 在 1978 年 曾经 说 过 : 我 








认为 ， 编 程 语 言 设 计 的 一 个 原则 是 …… 无 论 从 哪 一 点 来 看 ， 等 价 的 程序 不 太 可 能 有 不 一 样 的 表示 …… 
但 是 ， 完 全 不 同 的 编程 方式 增加 了 不 必要 性 ， 因 此 妨碍 了 代码 的 维护 效率 、 可 读 性 等 。” (http://www. 
cs.utexas.edu/-EWD/transcriptions/EWDO6xx/EWD660.html) 不 过 这 句 话 可 能 就 是 指 bn 的 发 明 人 ， 
Guido van Rossum， 他 也 是 荷兰 人 。 不 过 好 像 没 人 能 确定 到 底 是 哪 一 种 情况 。 美 国 亚 利 桑 那州 全 州 不 
用 夏令 上 时， 凤凰 城 是 其 州 府 。 一 一 译 者 注 
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附录 B 


互联 网 简介 








互联 网 是 一 种 信息 交换 形式 ,需要 处 理 的 内 容 越 来 越 复杂 ， 相 关 术 语 和 技术 的 复杂 性 也 在 
增加 。 互 联网 最 早 只 是 作为 一 种 科研 信息 的 交流 方式 ， 而 现在 它 还 需要 处 理 大 文件 上 传 、 
流 媒 体 视频 、 安 全 的 银行 结算 、 信 用 卡 交 易 ， 以 及 传递 企业 间 的 机 密 文件 。 














尽管 互联 网 的 多 层 结构 (OSI 模型 ) 非常 复杂 ， 但 究 其 本 质 依然 是 由 一 组 消息 构成 的 。 一 
些 消 息 用 于 信息 请 求 ， 一 些 消息 用 于 不 断 地 响应 请 求 ， 还 有 一 些 消息 包含 发 给 机 器 的 某 个 
应 用 程序 的 文件 信息 或 指令 。 这 些 请 求 不 断 地 从 一 个 客户 端 (桌面 或 移动 设备 ) 发 送 到 一 
台 服 务 器 上 ， 循 环 往复 。 它 们 也 会 在 服务 器 之 间 相 互 传递 ， 有 的 是 用 于 收集 更 多 客户 端的 


信息 o 














图 B-1 描绘 了 几 个 常见 的 互联 网 数据 交换 方式 : 请 求 一 个 域名 的 服务 器 地 址 ， 在 两 个 服务 
器 间 请 求 网 页 和 页 面 图 片 ， 还 有 一 个 请 求实 现 图 片上 传 。 
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www.domain.com 的 IP 地 址 是 什么 ? 
A OO 





N 
N 

























123.456.789.123 
DNS Server 
请 求 /index.html 页 面 `~ 
这 就 是 /index.html 页 和 Y 
Page Server 


请 求 fontPageImasge.jpg 文 件 


这 就 是 frontPageImage.jpg 文 件 
上 传 新 图 片 : kitten.gif 


上 传 成 功 ! Image Server 
这 就 是 kitten.gif 的 链接 








图 B-1: 若干 常见 客户 端 - 服务 器 互联 网 模型 数据 交换 方式 


有 许多 不 同类 型 的 协议 或 语言 控制 客户 端 和 服务 器 之 间 的 这 些 通信 方式 。 你 可 以 通过 
SMTP 协议 收 邮件 ， 通 过 VOIP 协议 打 电 话 ， 还 可 以 通过 FTP 上 传 邮件 。 每 个 协议 都 为 请 
求 头 定义 了 不 同 的 字段 ， 采 用 不 同 的 数据 编码 、 收 发 地 址 或 名 称 ， 以 及 其 他 数据 类 型 。 用 
于 网 站 信息 的 请 求 、 发 送 和 接收 的 协议 是 HTTP (Hypertext Transfer Protocol， 超 文本 传输 
协议 )。 


对 本 书 中 的 绝 大 多 数 仆 虫 (以 及 你 要 编写 的 大 多 数 仆 虫 ) 来 说 ，HTTP 是 用 来 和 远程 网 络 
服务 器 通信 和 的。 因此， 需要 对 这 个 协议 多 做 一 点 儿 介 绍 。 





一 个 HTTP 消息 包括 两 部 分 : 头 字 段 (header field) 和 数据 字段 (data field) 。 每 个 头 字段 
由 一 对 标题 和 值 构 成 。 这 些 字段 的 标题 是 HTTP 标准 预先 定义 好 的 。 比 如 ， 你 可 能 会 看 到 


一 个 头 字段 是 : 
Content-Type: application/json 


它 表 示 HTTP 数据 包 中 的 数据 将 用 JSON 格式 。 在 一 个 HTTP 数据 包 里 面 可 能 会 出 现 60 多 
种 头 字段 ， 但 是 在 本 书 里 我 们 只 介绍 一 小 部 分 。 下 表 中 的 一 些 HTTP 头 字段 应 该 都 是 你 比 
较 熟 悉 的 : 

















名 称 描 述 D 例 
User-Agent 字符 串 ， 表 示 发 出 请 求 的 浏览 器 Mozilla/5.0 (X11; Ubuntu; Linux x86. 64; rv:28.0) 
和 操作 系统 信息 Gecko/20100101 Firefox/28.0 
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( 续 ) 








名 称 描 R m 例 
Cookie 变量 ， 被 网 络 应 用 用 来 存储 会 话 “_utma:20549163.147923691.1398729710.1398729710.13 
数据 和 其 他 信息 98858679.2” 
Status 代码 ， 表 示 网 页 请 求 成 功 与 否 “200”( 成 功 ),“404”( 文 件 未 找到 ) 














当 HTTP 从 浏览 器 收 到 一 个 数据 包 ， 数 据 包 的 内 容 一 定 被 看 成 一 个 网 站 。 网 站 的 结构 由 
HTML (HyperText Markup Language， 超 文本 标记 语言 ) 构成 。 虽 然 HTML 通常 被 看 成 
编程 语言 ， 但 它 其实 是 一 个 标记 语言 。 它 通过 标签 定义 文档 结构 以 确定 各 个 元 素 ， 像 标题 
(title)、 正 文 (content)、 侧 边栏 (sidebar)、 页 脚 (footer) 等 。 











所 有 的 HTML 网 页 (至 少 是 格式 正常 的 页 面 ) 都 是 用 <html></html> 标签 开始 结束 ， 里 玫 
LAH <head> 和 <body> 标签 。 其 他 标签 都 被 放 在 «head» 和 <body> 标签 里 构成 页 面 的 内 容 : 














«html» 

«head» 

«title»An Example Page«/title» 
</head> 

<body> 

<h1>An Example Page</h1> 
<div class="body"> 

Some example content is here 
</div> 

</body> 

</html> 


在 这 个 例子 中 ， 页 面 标题 (会 显示 在 浏览 器 的 标签 页 ) 是 “An Example Page”， 同 样 的 标 
题 也 放 在 «hi» 标签 里 。 之 后 是 一 个 class 属性 为 body 的 div 标签， 里面 会 包括 文章 或 大 
段 的 文字 。 

















分 析 网 站 以 便 轻松 采集 
在 网 页 的 不 同 区 域 中 准确 地 复制 页 面 内 容 ， 对 网 络 数据 采集 是 很 有 用 的 一 一 页 面 上 的 
一 部 分 内 容 可 能 比 其 他 部 分 更 容易 采集 。 
在 上 面 的 示例 页 面 “An Example Page” 中 ， 标 签 可 以 通过 两 个 明显 的 分 隔 区 域 获 取 ， 
但 是 网 络 中 还 会 出 现 更 复杂 的 情况 。 例 如 ， 你 可 能 需要 在 一 个 公司 网 站 采集 员工 信息 ， 
而 员工 名 称 的 格式 并 不 统一 ， 如 下 所 示 : 
«span id="mary_smith">Dr. Mary Smith, CEO«/span» 


«span id-"john jones"-President of Finance Mr. John E. Jones«/span» 
«span id-"stacy roberts"»Stacy Roberts III, Marketing«/span» 


要 把 这 些 员 工 信 息 抽取 成 “firstname, lastname” 的 形式 很 难 。 怎 么 处 理 带 有 中 间 名 、 
职称 和 其 他 附加 数据 的 员工 信息 呢 ? 这 里 的 id 属性 的 内 容 格式 看 着 很 合适 ， 可 以 直接 
用 Python HFA * 2-31 d XX split 对 下 划 线 分 割 来 获得 结果 。 
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CSS (Cascading Style Sheets, ELE FEX) 是 配合 HTML 对 网 站 样式 进行 定义 的 语言 。 
CSS 可 以 为 网 站 对 象 定义 颜色 、 位 置 、 尺 寸 和 背景 色 等 属性 。 





在 上 面 的 示例 页 面 中 增加 CSS， 如 下 所 示 : 





hif 
color:'red'; 
font-size:1.5em; 
}; 
div.body{ 
border:2px solid; 


j 
这 段 代码 会 在 网 站 中 实现 一 个 适当 尺寸 的 红色 标题 ， 并 在 正文 内 容 外 增加 一 个 边框 。 








^i, HTTP, HTML, CSS 的 内 容 非 常 丰 富 ， 本 书 不 做 更 多 介绍 。 如 果 你 对 这 些 内 容 很 陌 
生 ， 我 推荐 你 到 W3Schools (http:/www.w3schools.com/) 去 查询 本 书 中 出 现 的 HTML/CSS 
术语 和 代码 。 利 用 浏览 器 的 “查看 源 代 码 ” 功 能 ， 也 可 以 很 快 地 熟悉 这 些 内 容 。 
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附录 C 


网 络 数据 采集 的 法 律 与 道德 约束 





2010 年 ， 软 件 工程 师 Pete Warden 做 了 一 个 网 络 息 虫 ， 从 Facebook 上 收集 数据 。 他 一 共 收 
集 了 大 约 两 亿 个 Facebook 用 户 的 用 户 名 、 位 置 、 好 友和 兴趣 爱好 信息 。 当 然 ，Facebook 
发 现 了 这 个 行为 ， 并 给 他 发 了 一 个 要 求 “停止 并 终止 ”的 邮件 ， 他 遵守 了 。 有 人 问 他 为 什 
么 要 遵守 Facebook 的 要 求 ， 他 说 :“ 大 数据 虽然 很 便宜 ， 但 律师 费 可 不 便宜 。 














在 这 一 章 里 ， 我 们 将 介绍 美国 及 其 他 国家 现存 的 一 些 与 网 络 数据 采集 相关 的 法 律 ， 并 学 习 
如 何 分 析 网 络 数据 采集 行为 的 法 律 和 道德 约束 。 


在 阅读 下 面 的 内 容 之 前 ， 希 望 你 能 理解 : 我 是 软件 工程 师 ， 不 是 律师 。 不 要 把 在 本 章 或 本 
书 其 他 章节 学 到 的 相关 法 律 知 识 看 成 专业 的 法 律 意 见 或 规范 。 虽 然 我 相信 自己 有 足够 的 能 
力 ， 可 以 介绍 网 络 数据 采集 行为 的 法 律 和 道德 约束 ， 但 是 在 做 那些 可 能 要 承担 法 律 责任 的 
网 络 数 据 采 集 项 目 之 前 ， 你 还 是 应 该 咨询 一 下 律师 ， 而 不 是 软件 工程 师 。 


C.1 商标、 版权、 专利 


现在 ， 我 们 开始 知识 产权 (Intellectual Property) 第 一 课 ! 知识 产权 有 三 种 基本 类 型 : 商标 
Uf 7" E? xo), 版 权 (用 © 表示 )， 专利 (有 时 会 在 文字 里 出 现 专利 保护 相关 说 明 ， 但 
通常 没有 任何 说 明 ) 。 





















































专利 用 来 声明 内 容 所 有 权 仅 属于 发 明 者 。 你 不 能 为 任何 图 片 、 文 字 和 信息 本 身 取得 专利 。 
虽然 有 些 专利 ， 比 如 软件 专利 ， 并 不 像 我 们 通常 理解 的 “发 明 创造 ”那样 是 有 形 的 ， 但 是 
要 注意 这 些 无 形 的 东西 (BOR) 是 有 专利 权 的 一 一 并 不 是 专利 报告 中 的 内 容 。 除 非 你 用 采 
集 来 的 设计 图 来 盖 楼 ,或 者 使 用 了 一 种 具有 专利 权 的 网 络 数据 采集 方法 ， 否 则 你 不 太 可 能 


i 
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在 网 络 数据 采集 时 侵犯 他 人 的 专利 。 


虽然 商标 也 不 太 可 能 出 现 问题 ， 但 是 有 些 事情 还 是 需要 注意 的 。 美 国 专利 商标 局 对 商标 的 
介绍 如 下 : 














商标 (trademark) 是 一 个 单词 、 词 组 、 符 号 和 /或 设计 ， 用 来 识别 和 区 分 一 种 商 
品 的 来 源 。 服 务 标识 (service mark) 是 一 个 单词 、 词 组 、 符 号 和 /或 设计 ， 用 来 
识别 和 区 分 一 种 服务 而 非 商品 的 来 源 。 术 语 “ 商 标 ” 通 常 既 可 表示 商标 ， 也 可 表 
示 服 务 标识 。 


除了 当 我 们 提 到 商标 时 通常 会 想到 的 传统 的 单词 / 词组 商标 ， 其 他 的 描述 性 特征 也 可 以 作 
为 商标 。 比 如 ， 容 器 的 外 形 (可 口 可 乐 的 瓶子 )， 或 者 一 种 颜色 (美国 欧文 斯 科 宁 的 Pink 
Panther 玻璃 纤维 隔 热 层 的 粉色 ) 。 


和 专利 不 同 ， 商 标的 所 有 权 很 大 程度 上 由 使 用 场景 决定 。 比 如 ， 如 果 我 想 在 博客 里 发 一 篇 
带 可 口 可 乐 图 标的 文章 ， 那 么 做 是 没 问题 的 (只 要 我 没有 暗示 我 的 博文 是 可 口 可 乐 赞 助 或 
发 布 的 就 行 )。 但 是 ， 如 果 我 想 做 一 种 新 的 碳酸 饮料 ， 在 外 包装 也 用 可 口 可 乐 图 标 ， 那 明 
显 就 侵权 了 。 同 样 道理 ， 虽 然 我 可 以 把 饮料 外 包装 涂 成 Pink Panther 的 粉色 ,但 是 我 不 能 
用 同样 的 颜色 发 行 一 种 新 的 家 用 隔 热 层 产 品 。 


版 权 法 

商标 和 专利 通常 都 要 正式 地 登记 ,以便 人 们 知晓 。 与 一 般 认识 不 同 的 是 ， 具 有 版 权 的 物品 
并 不 都 很 容易 识别 。 究 竟 带 什么 因素 的 图 像 、 文 字 、 音 乐 有 版 权 呢 ? 并 不 是 说 在 网 页 下 
面 加 上 “保留 所 有 权利 ”(All Rights Reserved) 就 具有 版 权 ， 也 不 是 “公开 出 版 发 行 的 ” 
(published) 与 “未 公开 出 版 发 行 的 ”(unpublished) 的 物品 版 权 就 不 一 样 。 只 要 你 把 一 件 
东西 带 到 世间 ， 它 就 会 自动 受到 版 权 法 的 保护 。 


《保护 文学 和 艺术 作品 伯尔尼 公约 》 是 1886 年 由 瑞士 政府 在 伯尔尼 首次 公布 的 版 权 国际 标 
准 。 这 个 公约 的 基本 含义 是 所 有 成 员 国 都 必须 像 对 待 自己 国家 的 公民 的 作品 一 样 ， 对 其 他 
国家 公民 的 作品 进行 版 权 保护 。 其 实 ， 就 是 说 作为 一 个 美国 公民 ， 如 果 你 涉嫌 抄袭 一 个 法 
国 公民 的 作品 ， 也 要 承担 法 律 责 任 (反之 亦 然 )。 


显然 ， 版 权 是 网 络 疏 虫 需 要 关注 的 内 容 。 如 果 我 采集 别人 的 博客 然后 放 到 我 自己 博客 上 ， 
我 就 可 能 会 车 上 官司 。 不 过 ， 我 有 几 层 保护 ， 可 以 根据 博客 采集 项 目的 实际 影响 ， 帮 我 进 
行 辩护 。 

首先 ， 版 权 保护 只 涉及 创造 性 的 作品 。 它 不 会 涉及 统计 数据 或 事实 。 好 在 许多 网 络 扑 虫 采 
集 的 都 是 事实 和 统计 数据 。 虽 然 一 个 网 络 爬 虫 从 网 络 上 收集 诗歌 ， 然 后 显示 在 自己 的 网 站 
上 有 可 能 是 违反 版 权 法 的 ， 但 是 如 果 它 收集 不 同时 间 段 诗歌 发 表 的 数量 就 不 违法 了 。 诗 歌 
是 一 种 创造 性 作品 ， 但 是 按 月 对 网 站 上 的 诗歌 进行 字数 统计 ， 就 没什么 创造 性 了 。 
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如 果 数 据 是 公司 发 布 的 价格 、 高 管 的 姓名 或 者 其 他 事实 性 的 信息 ， 那 么 即使 完全 照搬 (不 
是 根据 采集 的 原始 数据 进行 整合 或 计算 ) 也 不 会 违反 版 权 法 。 





按照 《数字 千年 版 权 法 》(Digital Millennium Copyright Act, DMCA), ， 即 使 是 有 版 权 的 内 
容 也 可 以 以 合理 理由 直接 使 用 。DMCA 列举 了 一 些 对 有 版 权 的 内 容 进行 自动 收集 的 规则 。 
DMCA 非常 长 ， 包 含 了 从 电子 书 到 电话 的 许多 细则 。 但 是 ， 有 三 点 需要 格外 注意 。 


。 WIE ZAR” (safe harbor) 保护 原则 ， 如 果 你 从 一 个 你 认为 是 无 版 权 的 数据 源 中 采 
集 数据 ， 但 是 有 人 曾 向 那个 数据 源 申 请 过 版 权 ， 那 么 只 要 你 在 得 到 提醒 后 把 有 版 权 的 材 
料 删 除 ， 就 可 以 免责 。 

。 为 了 收集 信息 ， 你 不 能 用 手段 故意 绕 开 安全 措施 (比如 密码 保护 )。 

。 你 可 以 根据 “公平 使 用 ”(fair use) 原则 使 用 信息 ， 但 需要 考虑 有 版 权 作品 占 总 信息 的 

百分比 ， 以 及 使 用 这 类 有 版 权 作 品 的 目的 。 


总 之 ， 未 经 作者 或 版 权 所 有 者 的 授权 ， 你 不 可 以 直接 发 布 有 版 权 的 信息 。 如 有 果 你 以 数据 分 
析 为 目的 ， 把 允许 自由 使 用 的 有 版 权 的 信息 保存 在 自己 的 不 公开 数据 库 里 ， 是 合法 行为 。 
如 果 你 把 数据 展示 到 网 站 上 供 人 们 浏览 或 下 载 ， 就 不 算 合法 了 。 如 有 果 你 分 析 数 据 库 里 的 
数据 ， 发 布 作品 的 字数 统计 ， 按 作品 数量 排列 的 作者 ， 或 其 他 的 数据 分 析 结 果 ， 是 合法 行 
为 。 如 果 你 还 引用 了 一 些 原文 ， 或 简单 的 样本 数据 来 阐述 自己 的 观点 ， 也 是 可 以 的 ， 但 是 
使 用 之 前 最 好 看 看 DMCA 里 “公平 使 用 ”原则 的 条 例 。 


C.2 侵犯 动产 


侵犯 动产 与 我 们 常识 中 的 “违法 ”有 着 本 质 的 区 别 ， 动 产 的 范围 不 包括 不 动产 和 土地 ， 是 
指 那 些 可 移动 的 财产 (比如 服务 器 )。 如 果 接 入 那些 不 允许 你 接 入 或 使 用 的 财产 ， 就 会 侵 
犯 动产 。 


在 目前 的 云 计算 时 代 ， 人 们 可 能 不 把 网 络 服 务 器 看 作 一 种 真实 有 形 的 资源 。 但 其 实 服务 器 
不 仅 由 许多 昂贵 的 组 件 构成 ， 而 且 它 们 还 需要 空间 存放 、 监 控 、 制 冷 ， 以 及 大 量 的 电力 供 
应 。 据 估计 ， 全 球 10% 的 电力 都 是 由 计算 机 消耗 的 (如 果 你 自己 的 电费 构成 并 非 如 此 ， 可 
以 考虑 一 下 Google 庞大 的 服务 器 农场 ， 每 一 座 都 需要 与 大 型 电站 连接 )。 


虽然 服务 器 是 很 昂贵 的 资源 ,但 是 从 法 律 角度 看 ， 一 种 非常 有 趣 的 现象 是 ， 网 站 运营 者 非 
常 希望 人 们 消费 他 们 的 资源 ( 接 入 他 们 的 网 站 )， 但 同时 他 们 又 不 希望 资源 被 过 快 得 消耗 
掉 。 通 过 浏览 器 看 一 下 网 站 可 以 ， 但 是 用 大 规模 的 DDOS 攻击 就 不 允许 了 。 


如 果 满 足下 列 三 个 条 件 ， 网 络 爬 虫 就 属于 侵犯 动产 。 























































































































。 缺少 许可 
由 于 网 络 服务 器 对 每 个 人 都 是 开放 的 ， 所 以 它们 一 般 也 会 向 网 络 聆 虫 “ 提 供 许 可 ”。 但 
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L1 
^ 


是 ， 很 多 网 站 的 服务 协议 条 款 都 明确 地 禁止 使 用 候 虫 。 另 外 ， 任 何 要 求 终止 邮件 中 也 会 
明确 地 废除 这 类 许可 。 


造成 实际 的 伤害 


服务 器 是 很 昂贵 的 。 除 了 服务 器 成 本 ， 如 果 你 的 腿 虫 把 网 站 拖 震 了 ， 或 者 限制 了 网 站 为 
其 他 用 户 提供 服务 的 能 力 ， 这 些 都 算是 你 对 网 站 造成 的 “伤害 ”。 
































故意 而 为 
这 个 ， 你 懂 的 | 





有 三 个 条 件 都 满足 才 算是 侵犯 动产 。 然 而 ， 如 果 你 违反 了 服务 协议 ， 并 没有 造成 实际 伤 











害 ， 不 要 认为 你 就 不 算 违 法 。 可 能 你 的 行为 也 已 经 违法 了 版 权 法 、DMCA、《 计 算 机 欺诈 
LH HX» (The Computer Fraud and Abuse Act，CFAA， 后 面 会 详细 介绍 )， 或 者 其 他 可 以 


处 


LIT. 






































里 网 络 仆 虫 犯罪 行为 的 法 律 。 











过 去 ， 网 络 服务 器 比 个 人 电脑 要 强大 得 多 。 其 实 , “服务 器 ”的 部 分 定义 就 是 指 “ 大 型 
计算 机 ”。 而 现在 情况 似乎 已 经 倒 过 来 了 。 上 比如， 我 自己 的 笔记 本 ，3.5 GHz 处 理 器 ， 
8G 内 存 。 一 个 亚马逊 的 中 等 云 计算 实例 ( 写 到 这 里 的 时 候 ) 却 只 有 3 GHz 处 理 器 和 
4G 内 存 。 

如 果 网 速 正 常 ， 还 有 一 台 可 以 持续 采集 的 专用 设备 ， 即 使 一 台 个 人 电脑 也 可 以 给 许多 
网 站 造成 沉重 负担 ， 基 至 可 以 对 网 站 造成 严重 伤害 或 直接 把 网 站 抑 垮 。 除 非 出 现 了 紧 
和 急 医疗 事故 ， 而 唯一 的 援救 方法 是 在 两 秒 内 收集 《 阿 周 真人 和 郁 》 (Joe Schmo) 网 站 上 
所 有 的 搞笑 视频 ， 否 则 真 的 没有 理由 去 伤害 别人 的 网 站 。 


一 直 被 采 着 看 的 机 器 人 是 永远 不 会 完成 的 (采集 总 是 需要 很 长 时 间 )。 有 时候 最 好 还 是 
让 卜 虫 在 午夜 运行 ， 而 不 是 在 下 午 或 者 傍晚 运行 ， 原 因 如 下 。 


再 想象 一 下 下 面 三 种 场景 。 





请 限制 你 的 爬虫 





如 果 你 有 大 约 八 个 小 时 的 时 间 ， 即 使 采集 一 页 需要 的 时 间 是 2 秒 ， 那 么 你 也 可 以 抓 
14000 多 页 。 当 时 间 不 怎么 紧张 的 时 候 ， 没 必要 加 快 疏 虫 的 且 集 速度 。 

假如 网 站 的 目标 访客 和 你 在 同一 时 区 (如 果 不 在 同一 时 区 可 以 自动 调整 时 间 ) ， 那 
么 晚上 网 站 流量 可 能 会 少 很 多 , 这 样 你 的 采集 行为 就 不 会 影响 网 站 高 峰 期 的 运行 了 。 
你 可 以 用 爬虫 采集 的 时 间 睡 觉 ， 不 用 为 了 看 到 新 信息 而 不 断 地 翻 日 志 。 想 想 看 ， 第 
二 天 早上 睡 醒 的 时 候 帮 新 的 数据 就 摆 在 面前 ， 得 有 多 么 民意 啊 | 


你 有 一 个 网 络 爬 虫 遍 历 了 《 阿 周 真人 秀 》 网 站 ， 收 集 了 一 些 或 全 部 的 数据 。 
你 有 一 个 网 络 想 虫 遍 历 了 几 百 个 小 网 站 ， 收 集 了 一 些 或 全 部 的 数据 。 
你 有 一 个 网 络 爬 虫 遍 历 了 一 个 超大 型 网 站 ， 比 如 维基 百科 。 
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在 第 一 个 场景 中 ， 最 好 让 人 已 虫 在 深夜 慢 慢 地 运行 。 


在 第 二 个 场景 中 ， 最 好 用 循环 制 快 速 地 采集 每 个 网 站 ， 而 不 是 一 次 一 个 慢 慢 地 采集 。 
根据 你 要 采集 的 网 站 数量 进行 合理 安排 ， 这 样 做 可 以 让 你 尽 可 能 以 最 快 的 网 络 连接 和 
最 多 的 机 器 收集 数据 ， 而 且 对 每 个 网 站 服务 器 的 负载 也 比较 合理 。 你 可 以 用 很 多 程序 
实现 这 种 循环 采集 方式 ， 可 以 用 多 线程 (每 个 线程 单独 采集 一 个 网 站 ， 可 以 暂停 ) ， 也 
可 以 用 Python 队列 来 跟踪 网 站 。 

在 第 三 个 场景 中 ， 可 能 你 的 网 络 连 接 和 个 人 电脑 对 维基 百科 这 样 的 超大 型 网 站 造成 的 
负载 不 会 引起 对 方 的 注意 。 但 是 ， 如 果 你 用 分 布 式 网 络 设备 采集 ， 显 然 就 不 是 一 回 事 
儿 了 。 请 谨慎 使 用 ， 最 好 问 问 对 方 允 不 允许 这 么 做 。 











C.3 ”计算 机 欺诈 与 滥用 法 


在 20 世纪 80 年 代 早 期 计算 机 从 学 术 领 域 走向 商业 世界 。 病 毒 和 蠕虫 不 再 仅仅 被 认为 是 








麻烦 事 (或 者 一 种 业余 爱好 )， 而 是 可 能 导致 实际 财务 损失 的 严重 犯罪 事件 。 为 此 ， 美 
联邦 政府 在 1986 年 出 台 了 《计算 机 欺诈 与 滥用 法 》。 


























国 


尽管 你 可 能 会 认为 这 个 法 律 只 是 针对 那些 发 布 病毒 的 恶意 黑客， 但 其 实 它 对 网 络 爬 虫 也 有 
很 大 的 影响 。 假 如 一 个 爬虫 用 简单 易 猜 的 密码 提交 登录 表单 ， 对 网 站 进行 暴力 破解 ， 或 者 

















收集 偶然 置 于 隐蔽 但 公开 位 置 的 政府 机 密 。 这 些 行为 在 CFAA 中 都 是 非法 的 。 
这 个 法 律 定义 了 七 种 主要 犯罪 行为 ， 总 结 如 下 。 


。 明知 没有 授权 ， 却 进入 美国 政府 的 计算 机 ， 并 获取 信息 。 

。 明知 没有 授权 ， 却 进入 计算 机 ， 并 获取 财务 信息 。 

。 明知 没有 授权 ， 却 进入 美国 政府 的 计算 机 ， 影 响 政府 计算 机 的 使 用 。 
。 为 了 诈骗 的 目的 故意 地 进入 任何 受 保护 的 计算 机 。 

。 没有 授权 的 情况 下 故意 地 进入 一 台 计 算 机 并 导致 计算 机 损坏 。 




















。 分 享 或 销售 美国 政府 使 用 的 计算 机 ， 或 者 影响 洲际 或 国际 商务 往来 的 计算 机 的 密码 或 授 


权 信 息 。 
。 试图 通过 破坏 或 威胁 破坏 任何 受 保护 的 计算 机 ， 诈 骗 钱财 或 “其 他 利益 




















总 之 ， 远 离 那些 受 保护 的 计算 机 ， 不 要 接 入 没有 授权 的 计算 机 〈 或 网 站 服务 器 ) ， 尤 其 是 


避 开 政府 或 财务 计算 机 。 


C.4 ”robots.txt 和 服务 协议 


从 法 理 上 说 ， 网 站 的 服务 协议 和 robots.txt 是 很 有 趣 的 。 如 采 一 个 网 站 允许 公众 接 入 ， 那 2 























A 


网 站 管理 员 对 软件 可 以 接 入 什么 和 不 可 以 接 入 什么 的 限制 是 不 合理 的 。 如 果 网 站 管理 员 对 




















192 | 附录 C 


你 说 ,“ 你 用 浏览 器 访问 网 站 没 问 题 ， 但 是 你 用 自己 写 的 程序 访问 它 就 不 行 ”， 这 就 不 太 靠 
HM. 

大 多 数 网 站 在 每 页 页 脚 都 有 自己 的 服务 协议 。TOS A DURS ZR TG BUR EI EA RIENI , 
而 且 还 包括 网 站 收集 的 信息 类 型 和 信息 用 途 ， 通 常 还 有 一 条 不 承担 责任 的 法 律 声明 ， 提 示 
用 户 网 站 提供 的 服务 没有 任何 费用 也 不 做 任何 保证 。 














如 果 你 了 解 搜 索引 擎 优化 (Search Engine Optimization, SEO) 或 搜索 引擎 技术 ， 那 么 你 可 
能 听 说 过 robots.txt 文件 。 如 果 你 想 在 任何 大 型 网 站 上 查找 robots.txt 文件 ， 可 以 在 网 站 根 
目录 http://website.com/robots.txt 找到 。 


rebots.txt 文件 是 在 1994 年 出 现 的 ， 那 时 搜索 引擎 技术 刚刚 兴起 。 从 整个 互联 网 寻找 资源 
的 搜索 引擎 ， 像 AltaVista 和 DogPile， 开 始 和 那些 把 网 站 按照 主题 进行 分 类 的 门户 网 站 公 
司 激烈 竞争 ， 比 如 像 Yahoo! 这 样 的 门户 网 站 。 互 联网 搜索 规模 的 增长 不 仅 说 明 网 络 扑 虫 
数量 的 增长 ， 而 且 也 体现 了 网 络 仆 虫 收集 信息 的 能 力 在 不 断 进 化 。 


虽然 我 们 今天 认为 这 种 能 力 是 十 分 平常 的 ， 但 是 当 自 己 网 站 文件 结构 深 处 隐藏 的 信息 变 成 
了 搜索 引 敬 首页 上 可 以 检索 的 内 容 时 ， 有 些 网 站 管理 员 还 是 会 感到 震惊 。 于 是 ，rebots.txt 
文件 ， 也 称 为 机 器 人 排除 标准 (Robots Exclusion Standard) ， 应 运 而 生 。 














与 通常 用 人 类 语言 宽泛 地 讨论 网 络 疏 虫 的 TOS 不 同 ，rebots.txt 文件 可 以 被 程序 轻易 地 解析 
和 使 用 。 虽 然 它 看 着 好 像 可 以 完美 地 解决 所 有 疏 虫 的 问题 ， 毕 其 功 于 一 役 ， 但 是 请 注意 下 
面 两 种 情况 。 


。 rebots.txt 文件 的 语法 没有 标准 格式 。 它 是 一 种 业内 惯用 的 做 法 ， 但 是 没有 人 可 以 阻止 别 
人 创建 自己 版 本 的 rebots.txt 文件 (并 不 是 说 如 果 它 不 符合 主流 标准 ， 机 器 人 就 可 以 不 
遵守 )。 它 是 一 种 被 企业 广泛 认可 的 习惯 ， 主 要 是 因为 这 么 做 很 直接 ， 而 且 企业 也 没有 
动力 去 发 展 自己 的 版 本 ， 或 者 尝试 去 改进 它 。 

e rebots.txt 文件 并 不 是 一 个 强制 性 约束 。 它 只 是 说 “请 不 要 抓 网 站 的 这 些 内 容 “。 有 很 多 
网 络 聆 虫 库 都 支持 rebots.txt 文件 〈 虽 然 这 些 默认 设置 很 容易 修改 )。 另 外 ， 按 照 rebots. 
txt 文件 采集 信息 比 直接 采集 要 麻烦 得 多 〈 毕 竞 ， 你 需要 采集 、 分 析 ， 并 在 代码 逻辑 中 
处 理 页 面 内 容 )。 


机 器 人 排除 标准 的 语法 很 直接 。 和 Python 等 语言 一 样 ， 注 释 都 是 用 # 号， 用 换行 结尾 ， 可 
以 用 在 文件 的 任意 位 置 。 


















































文件 的 第 一 行 非 注释 内 容 是 User-agent:， 注 明 具 体 哪些 机 器 人 需要 遵守 规则 。 后 面 是 
组 规则 Allow: 或 Disallow: ， 决 定 是 否 允 许 机 器 人 访问 网 站 的 该 部 分 内 容 。 星 号 (*) 是 
配 等， 可 以 用 于 User-agent:， 也 可 以 用 于 URL 链接 中 。 


um 


如 有 果 一 条 规则 后 面 跟着 一 个 与 之 矛盾 的 规则 ， 则 按 后 一 条 规则 执行 。 例 如 ， 
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#Welcome to my robots.txt file! 
User-agent: * 
Disallow: * 


User-agent: Googlebot 
Allow: * 
Disallow: /private 


在 这 个 例子 中 ， 所 有 的 机 器 人 都 被 禁止 访问 网 站 的 任意 内 容 ， 除 了 Google 的 网 络 机 器 人 ， 

















它 被 允许 访问 网 站 上 除了 /private 位 置 的 所 有 内 容 。 


Twitter 的 robots.txt 文件 对 Google, Yahoo!, Yandex (俄罗斯 著名 搜索 引擎 )、 微 软 ， 以 及 
其 他 机 器 人 或 搜索 引擎 访问 范围 都 有 明确 的 要 求 。Google 搜索 (和 其 他 机 器 人 的 访问 范围 


一 样 ) 的 内 容 如 下 所 示 : 





#Google Search Engine Robot 
User-agent: Googlebot 
Allow: /? escaped fragment 
Allow: /?lang- 

Allow: /hashtag/*?src- 
Allow: /search?q-*23 
Disallow: /search/realtime 
Disallow: /search/users 
Disallow: /search/*/grid 


Disallow: /*? 
Disallow: /*/followers 
Disallow: /*/following 














Twitter 之 所 以 采取 如 此 严格 的 访问 限制 是 因为 它 提 供 了 API。 因 为 Twitter 的 API 更 容易 
控制 (可 以 通过 授权 赚 到 钱 )， 所 以 Twitter 会 禁止 任何 使 用 聆 虫 采集 网 页 来 收集 网 站 信息 
的 机 器 人 。 



































虽然 看 到 一 个 指明 候 虫 采集 限制 范围 的 文件 让 人 感觉 很 整 届 ， 但 是 它 其 实 可 以 成 为 网 络 疏 
虫 开发 的 指示 灯 。 如 果 你 发 现 一 个 robots.txt 文件 禁止 采集 网 站 上 某 个 部 分 的 内 容 ， 那 么 基 
本 可 以 确定 网 管 同意 你 采集 其 他 部 分 的 所 有 内 容 (如 果 他 们 不 愿意 让 你 采集 ， 在 robots.txt 
文件 中 应 该 已 经 明确 禁止 了 )。 


M 
c 
E 











HI; 

















1， 维基 百科 的 robots.txt oct E f PIER, (并 非 搜 索引 擎 ) 非常 好 的 权限 。 甚 至 只 





要 是 人 类 可 以 阅读 的 文字 都 运行 机 器 人 采集 (适合 我 们 的 假 虫 ! ) ， 只 会 禁止 一 小 部 分 页 





比如 登录 页 面 、 搜 索 页 面 和 “随机 词 条 ”页 面 : 











# 

# Friendly, low-speed bots are welcome viewing article pages, but not 

# dynamically generated pages please. 

# 

# Inktomi's "Slurp" can read a minimum delay between hits; if your bot supports 
# such a thing using the 'Crawl-delay' or another instruction, please let us 
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know. 


TE Gk Gk GR Gk GR Gb 


User-agent: * 


Allow: /w/api.php?action-mobileview& 
Disallow: 
Disallow: 
Disallow: 
Disallow: 
Disallow: 
Disallow: 
Disallow: 
Disallow: 
Disallow: 
Disallow: 
Disallow: 
Disallow: 
Disallow: 
Disallow: 
Disallow: 
Disallow: 
Disallow: 
Disallow: 
Disallow: 
Disallow: 
Disallow: 
Disallow: 
Disallow: 
Disallow: 
Disallow: 
Disallow: 
Disallow: 
Disallow: 


是 否 按照 robots.txt SC PETI SK 5 8128 JR n ze B P E 


jw/ 

/trap/ 
/wiki/Especial:Search 
/wiki/Especial%3ASearch 
/wiki/Special:Collection 
/wiki/Spezial:Sammlung 
/wiki/Special:Random 
/wiki/Special%3ARandom 
/wiki/Special:Search 
/wiki/Special%3ASearch 
/wiki/Spesial:Search 
/wiki/Spesial%3ASearch 
/wiki/Spezial:Search 
/wiki/Spezial%3ASearch 
/wiki/Specjalna:Search 
/wiki/Specjalna%3ASearch 
/wiki/Speciaal:Search 
/wiki/Speciaal%3ASearch 
/wiki/Speciaal:Random 
/wiki/Speciaal%3ARandom 
/wiki/Speciel:Search 
/wiki/Speciel%3ASearch 
/wiki/Speciale:Search 
/wiki/Speciale%3ASearch 
/wiki/Istimewa:Search 
/wiki/Istimewa%3ASearch 
/wiki/Toiminnot:Search 
/wiki/Toiminnot%3ASearc 


的 时 候 ， 强 烈 建议 你 遵守 。 


C.5 ZCM Eek 








There is a special exception for API mobileview to allow dynamic mobile web & 
app views to load section content. 

These views aren't HTTP-cached but use parser cache aggressively and don't 
expose special: pages etc. 


己 决定 的 ， 当 爬虫 毫 无 节制 地 采集 网 站 


因为 网 络 数据 采集 是 一 个 没有 限制 的 领域 ， 所 以 有 很 多 意 想不到 的 情况 会 让 你 置身 于 恢 恢 
法 网 之 中 。 在 这 一 节 里 ， 我 们 将 介绍 三 个 网 络 疏 虫 相 关 的 法 律 案件 ， 看 看 案件 里 网 络 爬 虫 
是 如 何 被 使 用 的 。 














C.5.1 eBay 起 诉 Bidders Edge 与 侵犯 动产 


1997 年 ， 豆 宝宝 





(Beanie Baby) 市 场 依旧 如 火 如 茶 ， 科 技 领域 的 泡沫 不 断 膨胀 ， 在 线 房 屋 
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拍卖 也 已 经 成 为 互联 网 的 新 热点 。 有 一 家 叫 Bidder's Edge 的 公司 创造 了 一 种 新 的 线 上 拍卖 
模式 。 客 户 不 需要 从 一 个 拍卖 网 站 到 另 一 个 拍卖 网 站 查看 商品 价格 ， 这 个 公司 可 以 把 所 有 
网 站 同一 商品 (比如 一 个 流行 的 Furby doll 玩具 或 Spice World 电影 ) 的 信息 放 到 一 起 进行 
比价 ， 然 后 你 就 可 以 很 方便 地 点 击 最 低 价 的 网 站 去 购买 了 。 





Bidder's Edge 通过 很 多 网 络 爬 虫 实现 了 这 个 网 站 ， 为 了 得 到 商品 价格 和 信息 ， 不 断 地 向 各 
大 拍卖 网 站 的 网 络 服务 器 发 起 请 求 。 在 当时 的 拍卖 网 站 中 ， 最 大 的 是 eBay，Bidders Edge 
每 天 要 向 eBay 服务 器 请 求 100 000 次 。 就 算 按 照 分 天 的 观点 看 ， 这 也 是 很 大 的 流量 。 据 
eBay 公布 的 数据 显示 ， 这 相当 于 网 站 一 天 总 流量 的 1.53%， 老 板 表 定 不 会 开心 了 。 











eBay 给 Bidder's Edge 发 了 一 封 要 求 终止 的 警告 邮件 ， 以 及 一 个 eBay 数据 授权 申请 表 。 但 
是 ， 授 权 谈 判 没 成 功 ，Bidder's Edge 仍然 一 意 扳 行 ， 继 续 念 取 eBay 的 数据 。 





虽然 eBay 封杀 了 Bidder's Edge 的 169 个 卫 地 址 ， 但 是 Bidders Edge 还 是 通过 代理 服务 
器 继续 采集 (发送 请 求 的 时 候 显 示 代 理 服务 器 的 耳 )。“ 军 备 竞 赛 ”就 这 样 开始 了 ， 双 方 僵 
持 不 下 一 一 Bidders Edge 在 被 封杀 之 后 不 断 启 用 新 代理 服务 器 和 新 IP 地 址 ，eBay 则 不 断 
更 新 防火 墙 列 表 (增加 对 每 个 可 疑 P 地 址 发 送 的 数据 包 进行 检查 )。 























最 终 ， 在 1999 年 12 H, eBay 起 诉 Bidder's Edge 侵犯 动产 。(https://en.wikipedia.org/wiki/ 
EBay_v._Bidder%27s_Edge) 





因为 eBay 的 服务 器 是 eBay 拥有 的 真实 有 形 的 资源 ， 它 不 想 让 Bidder's Edge 小 用 自己 的 资 
源 ， 使 用 侵犯 动产 起 诉 好 像 非 常 合理 。 实 际 上 ， 目 前 侵犯 动产 在 网 络 爬 虫 法 律 案 件 中 十 分 
普遍 ， 也 经 常 被 开 法 律 案件 使 用 。 



































法 院 当 时 规定 eBay 出 示 两 方面 证 据 才 可 以 证 明 自 己 被 侵犯 动产 : 

















。 Bidder's Edge 未 经 允许 使 用 eBay 资源 
。 eBay 确实 因为 Bidder’s Edge 的 行为 遭受 了 经 济 损失 





由 于 之 前 eBay 发 过 要 求 终止 警告 信 ， 而 且 IT 日 志 可 以 显示 服务 器 使 用 情况 以 及 服务 器 相 
关 的 财务 成 本 ， 所 以 eBay 很 容易 就 提供 了 证 据 。 当 然 ， 大 型 法 律 案 件 都 不 会 轻松 结束 : 
双方 来 回 扯皮 ， 支 付 了 大 量 律师 费 ， 最 终 在 2001 年 3 月 法 院 才 最 终 判 决 。 








那么 ， 这 个 案例 是 不 是 说 ， 以 后 只 要 任何 人 未 经 授权 使 用 别人 的 服务 器 ， 就 是 侵犯 动产 了 
WE? 也 不 一 定 。Bidder's Edge 是 一 个 极端 案例 : 它 用 了 eBay 太 多 的 资源 ， 导 致 eBay 不 得 
不 购买 更 多 的 服务 器 ， 花 更 多 电费 ， 可 能 还 要 多 雇 人 维护 (虽然 1.5390 看 着 并 不 多 ,但 对 
这 样 的 大 公司 来 说 所 有 加 总 肯定 是 一 笔 大 数目 )。 























2003 年 ， 加 州 高 级 法 院 判 了 另 一 个 案子 ，Intel 公司 起 诉 Hamidi 失败 。Intel 前 雇员 Hamidi 
通过 Intel 服务 器 向 Intel 的 员工 发 送 让 Intel 不 夹 的 邮件 。 法 院 结案 时 说 : 
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Intel 败诉 并 不 是 因为 通过 网 络 发 送 邮 件 可 以 不 承担 任何 法 律 责 任 ， 而 且 因 为 侵犯 
动产 的 民事 侵权 行为 不 成 立 并 不 像 这 个 案例 中 描述 的 如 果 原 告 没有 证 据 
证 明 自己 财产 或 法 律 权 益 受 到 损失 ， 在 加 州 就 不 能 胜诉 。 








最 后 ，Intel 无 法 向 法 院 证 明 Hamidi 向 公司 其 他 员工 发 送 的 六 封 邮件 给 公司 造成 了 经 济 损 
失 (有 趣 的 是 ， 每 封 邮件 都 带 有 已 经 从 Hamidi 邮箱 删除 的 选项 一 一 说 明 他 还 是 挺 懂 规矩 
的 )。 这 件 事 并 没有 给 Intel 造成 任何 财产 损失 。 


C.5.2 ”美国 政府 起 诉 Auernheimer 与 《计算 机 欺诈 与 滥用 法 》 
如 果 网 上 的 信息 可 以 让 人 用 浏览 器 轻而易举 地 获得 ， 那 么 你 用 自动 化 手段 获取 同样 的 信息 
不 太 可 能 会 引起 联邦 调查 局 调查 你 。 但 是 ， 如 果 一 个 非常 细心 的 人 在 网 站 上 发 现 了 一 个 极 
小 的 安全 漏洞 ， 再 使 用 网 络 候 虫 自动 化 采集 网 站 ， 那 么 这 个 极 小 的 安全 漏洞 就 会 变 得 越 来 
越 大 并 且 非 常 危险 ， 被 联邦 调查 局 调查 就 很 正常 了 。 











2010 年 ，Andrew Auernheimer 和 Daniel Spitler 在 iPad 上 发 现 了 一 个 新 功能 ， 当 用 iPad 访 
问 AT&T 网 站 的 时 候 ，AT&T 跳 转 到 一 个 带 有 iPad 的 唯一 ID 号 的 链接 : 











https://dcp2.att.com/OEPClient/openPage?ICCID=<idNumber>&IMEI= 
这 个 页 面包 括 一 个 登录 表单 ， 上 面 显 示 对 应 ID 号 的 用 户 的 邮箱 地 址 ， 用 户 只 要 输入 密码 
就 可 以 访问 他 们 的 账号 了 。 


虽然 有 大 量 可 能 的 也 号 ， 但 只 要 有 足够 的 腿 虫 ， 用 一 串 随机 数 迁 代 ， 就 可 以 收集 邮箱 地 
址 。 通 过 AT&T 网 站 的 这 个 登录 功能 基本 上 就 把 用 户 的 邮箱 地 址 公布 到 网 络 上 了 。 



































Auernheimer 和 Spitler 做 了 一 个 仆 虫 ， 一 共 收 集 了 114 000 个 邮箱 地 址 ， 里 面包 含 知名 人 
士 、 企 业 CEO 和 政府 官员 的 邮箱 地 址 。Auernheimer 向 高 客 传媒 (Gawker Media) 发 布 了 
地 址 列表 以 及 如 何 获取 的 方法 ， 高 客 传媒 也 很 给 力 ， 在 自己 网 站 发 布 了 头条 消息 “苹果 最 
烂 安全 事故 : 114 000 个 用 户 信 息 被 曝 ”( 不 过 没有 公布 邮箱 列表 )。 





























2011 £6 月 ，Auernheimer 的 家 突然 遭 到 FBI 搜查 ，FBI 索要 邮箱 地 址 ， 不 过 最 终 以 贩毒 
罪 逮 捕 了 他 。2012 年 11 月 ， 他 因 未 经 授权 接 入 计算 机 被 判 欺诈 与 共 谋 罪 ,之 后 在 联邦 监 
狱 关 押 上 41 个 月 ， 并 要 求 赔偿 73 000 美元 。 (https://en.wikipedia.org/wiki/Weev) 





























他 的 案子 引起 了 民权 律师 Orin Kerr 的 关注 ， 他 组 建 律师 团队 ， 把 案子 上 诉 到 了 美国 联邦 
第 三 巡回 上 诉 法 院 。2014 年 4 月 11 日 (这 类 法 律 程序 时 间 都 比较 长 )， 第 三 巡回 上 诉 法 院 
接受 上 诉 ， 法 院 的 意见 是 : 
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Auernheimer 在 第 一 法 院 的 罪名 必须 撤销 ， 因 为 根据 《计算 机 其 诈 与 滥用 法 》，18 
U.S.C. 8 1030(a)(2)(C)， 访 问 公共 网 站 并 不 需要 经 过 许可 。AT&T 并 没有 使 用 密码 
或 任何 其 他 保护 措施 控制 其 他 人 获取 用 户 的 邮箱 地 址 。AT&T 主 观 地 希望 外 人 不 
会 偶然 看 到 敏感 数据 ， 以 及 Auernheimer 的 行为 被 假设 成 “小 偷 ” 都 是 不 恰当 的 。 
公司 配置 服务 器 使 得 信息 向 每 个 人 公开 ， 就 是 授权 一 般 公 众 可 以 查看 信息 。 通 过 
AT&T 的 公共 网 站 获取 邮箱 地 址 是 CFAA 允许 的 行为 ， 因 此 Auernheimer 无 罪 。 


于 是 ， 理 性 在 法 律 体系 中 又 一 次 获得 了 最 终 胜利 。 同 一 天 ，Auernheimer 从 监狱 释放 ， 从 
此 每 个 人 都 可 以 快乐 地 生活 了 。 





虽然 Auernheimer 被 认定 没有 违反 《计算 机 欺诈 与 滥用 法 》， 但 是 他 曾经 在 家 中 被 FBI 强行 
搜查 ， 花 费 了 数 千 美元 的 律师 费 ， 也 花 了 三 年 时 间 诉 讼 和 坐牢 。 作 为 网 络 爬 虫 从 业者 ， 我 
们 能 从 中 汲取 什么 教训 ， 让 我 们 远离 这 类 情况 ， 避 免 类 似 情 况 发 生 在 自己 身上 呢 ? 


首先 ， 采集 任何 敏感 信息 的 时 候 ， 无 论 是 个 人 隐私 〈 本 案例 中 是 邮箱 地 址 )、 交 易 机 密 或 是 
政府 机 密 ， 在 向 律师 咨询 之 前 ， 都 不 应 该 行动 。 即 使 信息 是 公开 的 ， 你 也 要 想 想 :“ 如 果 普 
通用 户 想 看 这 些 信息 ， 可 以 这 么 容易 地 得 到 吗 ? ”“ 这 些 信息 是 公司 想 让 用 户 看 的 吗 ? ” 



































其 次 ， 我 曾经 多 次 给 一 些 公司 打 电 话 ， 告 诉 他 们 网 站 和 网 络 应 用 的 安全 隐患 。 这 么 说 最 合 
适 :“ 你 好 ， 我 是 做 网 络 安全 的 ， 在 你 的 网 站 上 发 现 了 一 个 潜在 的 安全 隐患 ， 可 以 把 电话 
转 接 到 可 以 处 理 问题 的 人 那里 吗 ? ”对 方 除了 对 你 的 〈 白 帽 ) 黑客 天 才 感 激 万 分 ， 还 可 能 
会 让 你 免费 订阅 网 站 内 容 ， 甚 至 还 会 有 现金 奖励 或 其 他 好 处 ! 


另外 ，Auernheimer 向 高 客 传媒 发 布 信息 〈 在 通知 AT&T 之 前 ) ， 以 及 秀 自己 发 现 安全 隐患 
的 过 程 ， 无 疑 成 为 了 AT&T 律师 的 攻击 点 。 


如 果 你 发 现 了 网 站 的 安全 隐患 ， 最 好 的 做 法 就 是 告诉 网 管 ， 而 不 是 媒体 。 尤 其 是 当 网 站 补 
丁 没有 及 时 放出 的 时 候 ， 你 可 能 想 写 一 篇 博文 然后 向 世界 宣布 。 但 是 ， 你 应 该 记 住 ， 那 是 
网 站 自己 的 公司 该 做 的 事情 ， 与 你 无 关 。 你 最 该 做 的 事情 就 是 让 你 的 网 络 仆 虫 (也 可 能 是 


你 的 生意 ) 远离 这 些 网 站 












































C.5.3 Field 起诉 Google: 版 权 和 robots .txt 


Blake Field 是 一 名 律师 ， 他 起 诉 Google 违反 了 版 权 法 ， 因 为 当 他 把 自己 的 书 从 他 的 网 站 上 
删除 之 后 ，Google 还 是 在 搜索 引擎 里 显示 了 书 的 副本 。 版 权 法 允许 具有 原创 性 作品 的 作者 
控制 作品 的 发 布 渠道 。Field 认为 Google 的 缓存 〈 当 他 把 自己 的 书 从 他 的 网 站 上 删除 之 后 ) 
侵犯 了 他 控制 作品 发 布 渠道 的 权利 。 
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Google 网 络 缓存 


Google WREE (也 叫 “ 谷 歌 机 器 人 ”) 采集 网 站 的 时 候 ， 它 们 会 为 网 站 留 
一 个 副本 ， 然 后 放 在 互联 网 上 。 任 何人 都 可 以 接 入 这 些 缓存 ， 用 URL 链接 
就 可 以 : 














http://webcache.googleusercontent.com/search?q=cache:http://pythonscraping. 
com/ 


如 果 你 搜索 或 采集 的 网 站 没有 了 ， 你 可 以 用 这 个 方法 看 看 副本 还 在 不 在 。 














知道 Google 的 缓存 功能 却 没 有 采取 安全 措施 ， 并 不 能 帮助 Field 胜诉 。 其 实 ， 他 可 以 在 网 
站 直接 增加 robots.txt 文件 来 禁止 Google 机 器 人 缓存 他 的 网 站 ， 里 面 广 明 哪些 页 面 可 以 采 
集 ， 哪 些 页 面 不 能 采集 就 行 。 














更 重要 的 是 ， 法 院 认为 根据 DMCA 的 安全 港 (Safe Harbor) 条 例 ，Google 可 以 合法 地 缓 
存 和 显示 Field 的 网 站 :“ 服 务 提 供 商 间接 或 临时 把 材料 存储 在 由 其 控制 或 操作 的 系统 或 网 
络 上 ， 不 应 当 作 出 经 济 赔偿 …… 不 应 当 承 受 侵犯 版 权 的 责任 。 
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封面 介绍 

本 书 封面 上 的 动物 是 一 只 南非 穿山 甲 。 穿 山 甲 是 一 种 独居 、 喜 欢 夜间 活动 的 哺乳 动物 ， 与 
犯 狼 、 树 居 、 食 蚊 兽 是 近亲 。 它 们 主要 分 布 于 非洲 的 东部 和 南部 。 非 洲 还 有 三 种 穿山 甲 ， 
均 属 濒 临 灭绝 物种 。 





成 年 的 穿山 甲 体 长 12~39 英寸 ， 体 重 可 达 3.5~73 磅 。 它 们 和 和 独 狂 类 似 ， 身 上 有 深 色 、 浅 棕 
色 或 橄榄 色 的 鳞 甲 。 幼 年 穿山 甲 的 身上 主要 是 粉红 色 的 鲜 甲 。 受 到 威胁 时 ， 尾 部 的 鳞 甲 更 
像 攻 击 性 武器 ， 可 以 想 伤 攻击 者 。 穿 山 甲 还 有 一 种 与 臭 山 类 似 的 防御 策略 ， 可 以 从 肛门 附 
近 的 腺 体 中 释放 出 一 种 酸性 恶臭 气体 。 这 么 做 不 仅 是 向 攻击 者 发 出 警告 ， 还 可 以 标记 自己 
的 势力 范围 。 穿 山 甲 的 肚子 上 并 没有 鲜 甲 ， 不 过 有 一 点 儿 毛 。 


和 它们 的 近亲 食 蚁 兽 一 样 ， 穿 山 甲 主要 以 妇 蚁 和 和 白 蚁 为 食 。 它 们 异乎 寻常 的 长 舌头 可 以 在 
树 洞 和 蚂蚁 窜 中 寻 克 食物 。 它 们 的 舌头 比 身体 还 长 ， 可 以 在 不 用 的 时 候 缩 回 胸腔 里 


虽然 穿山 甲 是 独居 动物 ， 但 是 长 大 以 后 会 居住 在 很 深 的 地 洞 里 。 但 是 它们 经 常 “霸占 ” 土 
豚 和 疣 猪 弃 用 的 集 穴 。 不 过 通过 前 肢 上 三 个 又 长 又 谊 的 爪子 ， 穿 山 甲 在 需要 的 时 候 为 自己 
挖 一 个 地 洞 也 不 成 问题 。 


O'Reilly 书籍 封面 上 的 许多 动物 都 快要 绝种 了 ， 它 们 对 这 个 世界 都 非常 重要 。 如 果 你 想 了 
解 帮助 它们 的 相关 信息 ， 请 参考 animals.oreilly.com。 


封面 图 片 取 自 Lydekker 的 The Royal Natural History, 
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Python 网 络 数据 采集 


网 络 上 的 数据 量 越 来 越 大 ， 单 靠 浏 览 网 页 获取 信息 越 来 越 困 难 ， 如 何 
有 效 地 提取 并 利用 信息 已 成 为 一 个 巨大 的 挑战 。 本 书 采用 简洁 强大 的 
Python 语言 ， 全 面 介 绍 网 络 数据 采集 技术 ， 教 你 从 不 同形 式 的 网 络 资源 
中 自由 地 获取 数据 。 你 将 学 会 如 何 使 用 Python 脚本 和 网 络 API 一 次 性 采集 
并 处 理 成 干 上 万 个 网 页 上 的 数据 。 


本 书 适合 熟悉 Python 的 程序 员 、 安 全 专业 人 士 、 网 络 管理 员 阅 读 。 书 中 
不 仅 介 绍 了 网 络 数据 采集 的 基本 原理 ， 还 深入 探讨 了 更 高 级 的 主题 ， 比 
如 分 析 原 始 数 据 、 用 网 络 仆 虫 测试 网 站 等 。 此 外 ， 书 中 还 提供 了 详细 的 
代码 示例 ， 以 帮助 你 更 好 地 理解 书 中 的 内 容 。 


通过 阅读 本 书 ， 你 将 能 够 : 

m 解析 复杂 的 HTML 页 面 

B 遍历 多 个 网 页 和 网 站 

m 了 解 API 的 基本 概念 和 工作 原理 

学 习 存储 数据 的 方法 

下 载 、 读 取 并 抽取 网 络 文档 中 的 数据 
使 用 工具 和 方法 清洗 格式 异常 的 数据 
读 取 并 处 理 自然 语言 

越过 表单 和 登录 窗口 采集 数据 

学 习 采 集 JavaScript 的 方法 

学 习 图 像 处 理 和 文字 识别 方法 
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“这 本 书 中 的 工具 和 示例 帮 有 我 轻 


松 地 将 一 些 重复 性 工作 自动 化 
了 ,我 可 以 将 省 下 来 的 时 间 用 于 
解决 更 有 意思 的 问题 。 这 是 一 
本 实用 手册 ， 非 常 适 合用 来 解 
决 实际 工作 中 的 问题 。” 
一 一 Eric VanWyk 
美国 欧 林 工 程 学 院 
电子 计算 机 工程 师 


Ryan Mitchell 是 数据 科学 家 、 
软件 工程 师 ， 目 前 在 波士顿 
LinkeDrive 公 司 负责 开发 公司 的 
API 和 数据 分 析 工 具 。 此 前 ， 曾 
在 Abine 公 司 构建 网 络 怜 虫 和 网 
络 机 器 人 。 她 经 常 做 网 络 数据 采 
集 项 目的 咨询 工作 ， 主 要 面向 金 
融和 零售 业 。 另 其 有 /nstant Web 
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如 果 您 对 本 书 内 容 有 疑问 ， 可 发 邮件 至 contact@turingbook.com， 会 有 编辑 
或 作 译 者 协助 答疑 。 也 可 访问 图 灵 社 区 ， 参 与 本 书 讨 论 。 


如 果 是 有 关 电 子 书 的 建议 或 问题 ， 请 联系 专用 客服 邮箱 : 


ebook@turingbook.com。 
在 这 可 以 找到 我 们 : 


微 博 @ 图 灵 教育 : 好 书 、 活 动 每 日 播报 

微 博 @ 图 灵 社 区 : 电子 书 和 好 文章 的 消息 
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